# Opus 4.7 不再卖聪明:推理竞赛悄悄结束了
4 月 16 日,Anthropic 发布了 Claude Opus 4.7。
很多人把它读成又一次升级:SWE-bench Verified 从 80.8% 跳到 87.6%,SWE-bench Pro 拿下 64.3%,把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)甩开一个身位。
我看到的却是另一件事。
Opus 4.7 是第一个公开放弃"更聪明"这个卖点的前沿模型。它不是 IQ 暴涨的版本。它是行业集体转弯的那一刻。
请注意这一组数字:
| 模型 | GPQA Diamond |
|---|---|
| GPT-5.4 Pro | 94.4% |
| Gemini 3.1 Pro | 94.3% |
| Claude Opus 4.7 | 94.2% |
差 0.2 个百分点。三家差距全部落在评测噪声范围内。
GPQA Diamond 是什么?是博士级科学推理题集。2023 年 11 月的水平是 39%,2024 年 9 月 o1 模型 77%,2025 年 7 月 92%。从 39 到 94,只用了不到 30 个月。
现在走不动了。Epoch AI 的研究者说得直白:benchmark 在前沿顶端已接近饱和,任何增量都会非常小。
前沿模型撞到了天花板——不是技术的天花板,是这个具体赛道的天花板。
过去三年,每一代旗舰都靠"推理跃迁"当头条:o1、o3、Gemini 2.5、Claude 4、Opus 4.5。从 GPT-4 到 Opus 4.7,那根向上的曲线第一次在顶端趋平。
这不是一次发布,这是一场葬礼。看 Opus 4.7 的官方话术和合作伙伴引语:
你注意到什么没有?没有一句在讲"更聪明"。
全部在讲一件事:毅力、一致性、长时程不走神。
三年前卖 IQ,现在卖 EQ。不,准确说,是卖"注意力耐力"——能不能一边做事一边不忘事,能不能连续 8 小时不崩溃,能不能先自证再动手。
市场话术的整齐反转,是产业信号。旗舰模型们已经私下换了 KPI。
如果 Opus 4.7 是"更强一点的 Claude",它应该全线领先。实情不是。
同一次发布,同一组评测,Opus 4.7 在"改仓库代码"上领先,在"开 shell 跑终端"上落后。
这不是 bug,这是定位。
Anthropic 押注长时程代码 agent这条赛道——多文件、多步、有计划、能自我纠错。代价就是放弃 Terminal-Bench 这种以短指令为核心的评测。
过去我们挑模型是"谁更聪明"。从今天起,挑模型是"谁的专业方向和我对得上"。
通才冠军时代结束了。还有更硬的证据。Anthropic 在训练 Opus 4.7 时,刻意调低了它的网络安全能力。这在前沿模型发布史上是头一次——不是"我们只能做到这么强",而是"我们故意让它在这个方向不那么强"。
因为 Anthropic 手里还捏着一个没发布的模型:Mythos Preview。那个模型在过去几周里找出了 OpenBSD 里存活 27 年的远程崩溃漏洞、FFmpeg 里 16 年没人发现的老洞、Linux 内核里能把普通用户权限升到完全控制的漏洞链。它的 API 价格是 $25/$125,是 Opus 4.7 的整整 5 倍。
所以这次发布的真相是:Opus 4.7 不是"最聪明的 Claude"。它是被有意塑形过的——砍掉一块能力(cyber)、加强另一块能力(长时程代码 agent),配上护栏对外推。
这彻底坐实了我的观点:前沿模型不再按"最大 IQ"卖,它们按"定向配置的能力形状"卖。
Opus 4.7 定价保持 $5/$25(输入/输出 per million token)。
读起来像利好。其实不是。
两件事叠加:
1. 全行业推理天花板逼近,新版本的"质量增量"不再值得涨价
2. Opus 4.7 换了新 tokenizer,同样文本最多多吃 35% 的 token
等于一次隐形的 35% 涨价,但包装成"价格不变"。这个信号比 benchmark 更值得读。它说的是:前沿模型的能力,正在从通用底座,流向特定方向的专项。通用能力不再值得多收钱,专项能力才是产品。
你买的不再是"更高分的模型",你买的是"对你任务更对口的模型"。
我自己交付 AI Agent 产品这几年,有个反直觉的体会:客户问题的天花板,极少是模型不够聪明。
它几乎永远是模型在 40 步之后开始忘了第 3 步说过什么。是代码 agent 改了一个文件之后不记得还有 5 个关联文件。是规划阶段漏了一个边界条件,到执行阶段才崩。
这些都不是 IQ 问题,是 grit 问题——持续性、一致性、自我校验。
看 Opus 4.7 早期客户报告的数据点就很清楚:Notion 说工具调用错误从 Opus 4.6 降到三分之一;Rakuten 在自己的 SWE-Bench 上解决的生产任务是 Opus 4.6 的 3 倍;Imbue 直接让 Opus 4.7 从零自主搭了一个 Rust TTS 引擎——神经网络、SIMD 内核、浏览器 demo 全写完,然后反过来用语音识别器验证输出对不对。
这些数据全部在讲 grit,没有一个在讲 IQ。
同步发布的还有一个小细节值得注意:Claude Code 默认 effort 拉到了一个新档位 xhigh(比原先的 high 更高、比 max 更低)。这意味着"让它思考多久"变成了可调刻度。耐力本身成了明码标价的商品。
Opus 4.7 的真正信号是:整个行业终于承认了这件事。
所以从今天起,模型选型的问题变了。
不要再问 "哪个更聪明"。问这三个:
1. 它在我这条任务链上能跑多长不崩?(长时程一致性)
2. 它错了之后能不能自己发现?(自证能力)
3. 它的专业化方向和我重合吗?(Opus 4.7 擅长代码 agent,GPT-5.4 擅长终端和速度,Gemini 擅长超长上下文和成本)
这是三条独立的轴。没有一个模型在三轴都领先。
选型从"挑冠军"变成了"配方向"。
SWE-bench 涨 7 分,是产品层事件。
推理军备竞赛结束,是产业层事件。
它意味着:
我做 Agent 产品时最贵的 bug,从来不在 benchmark 分数里。它们在 token 膨胀里、在第 7 步的状态丢失里、在 agent 绕开了人的工具调用回路里。
Opus 4.7 把行业的视线从"天花板多高"拉到了"地基多稳"。这比那几个跑分数字值钱得多。
Opus 4.7 发布当天,几乎所有人都在刷 SWE-bench Pro 64.3% 领先 GPT-5.4 的图。
我建议你忘了那张图。
真正要存档的是另一张图:GPT-5.4 Pro 94.4、Gemini 3.1 Pro 94.3、Claude Opus 4.7 94.2。
三家平手,推理竞赛悄悄结束。
下一页,开始比谁更有耐心。