返回博客

Opus 4.7 不再卖聪明:推理竞赛悄悄结束了

ClaudeOpusAILLM前沿模型观点
推理已饱和,代理才开赛

# Opus 4.7 不再卖聪明:推理竞赛悄悄结束了

4 月 16 日,Anthropic 发布了 Claude Opus 4.7。

很多人把它读成又一次升级:SWE-bench Verified 从 80.8% 跳到 87.6%,SWE-bench Pro 拿下 64.3%,把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)甩开一个身位。

我看到的却是另一件事。

Opus 4.7 是第一个公开放弃"更聪明"这个卖点的前沿模型。

它不是 IQ 暴涨的版本。它是行业集体转弯的那一刻。

一、GPQA 三家并列,推理军备竞赛第一次没了赢家

请注意这一组数字:

模型GPQA Diamond
GPT-5.4 Pro94.4%
Gemini 3.1 Pro94.3%
Claude Opus 4.794.2%

差 0.2 个百分点。三家差距全部落在评测噪声范围内。

GPQA Diamond 是什么?是博士级科学推理题集。2023 年 11 月的水平是 39%,2024 年 9 月 o1 模型 77%,2025 年 7 月 92%。从 39 到 94,只用了不到 30 个月。

现在走不动了。Epoch AI 的研究者说得直白:benchmark 在前沿顶端已接近饱和,任何增量都会非常小。

前沿模型撞到了天花板——不是技术的天花板,是这个具体赛道的天花板

三家同时冲线

过去三年,每一代旗舰都靠"推理跃迁"当头条:o1、o3、Gemini 2.5、Claude 4、Opus 4.5。从 GPT-4 到 Opus 4.7,那根向上的曲线第一次在顶端趋平。

这不是一次发布,这是一场葬礼。

二、Anthropic 和合作伙伴的话术,整齐得像串通过

看 Opus 4.7 的官方话术和合作伙伴引语:

  • Anthropic:模型"被设计来在数小时长的工作流里保持专注"
  • Cognition(Devin):"works coherently for hours,能在难问题上持续推进"
  • Vercel:"开始写代码之前会先对系统代码做证明"
  • Intuit:"在规划阶段就抓住自己的逻辑漏洞"
  • Factory:任务成功率提升 10-15%,半途卡住的情况更少

你注意到什么没有?没有一句在讲"更聪明"

全部在讲一件事:毅力、一致性、长时程不走神

三年前卖 IQ,现在卖 EQ。不,准确说,是卖"注意力耐力"——能不能一边做事一边不忘事,能不能连续 8 小时不崩溃,能不能先自证再动手。

市场话术的整齐反转,是产业信号。旗舰模型们已经私下换了 KPI

三、Opus 4.7 自己就是专业化的证据

如果 Opus 4.7 是"更强一点的 Claude",它应该全线领先。实情不是。

  • SWE-bench Verified:87.6%(全场最高)
  • SWE-bench Pro:64.3%(全场最高)
  • CursorBench:70%(一跃领先)
  • OSWorld-Verified:78.0%(领先 GPT-5.4 的 75%)
  • Terminal-Bench 2.0:69.4%(输给 GPT-5.4 的 75.1%)

同一次发布,同一组评测,Opus 4.7 在"改仓库代码"上领先,在"开 shell 跑终端"上落后。

这不是 bug,这是定位。

Anthropic 押注长时程代码 agent这条赛道——多文件、多步、有计划、能自我纠错。代价就是放弃 Terminal-Bench 这种以短指令为核心的评测。

过去我们挑模型是"谁更聪明"。从今天起,挑模型是"谁的专业方向和我对得上"。

通才冠军时代结束了。

还有更硬的证据。Anthropic 在训练 Opus 4.7 时,刻意调低了它的网络安全能力。这在前沿模型发布史上是头一次——不是"我们只能做到这么强",而是"我们故意让它在这个方向不那么强"。

因为 Anthropic 手里还捏着一个没发布的模型:Mythos Preview。那个模型在过去几周里找出了 OpenBSD 里存活 27 年的远程崩溃漏洞、FFmpeg 里 16 年没人发现的老洞、Linux 内核里能把普通用户权限升到完全控制的漏洞链。它的 API 价格是 $25/$125,是 Opus 4.7 的整整 5 倍。

所以这次发布的真相是:Opus 4.7 不是"最聪明的 Claude"。它是被有意塑形过的——砍掉一块能力(cyber)、加强另一块能力(长时程代码 agent),配上护栏对外推。

这彻底坐实了我的观点:前沿模型不再按"最大 IQ"卖,它们按"定向配置的能力形状"卖。

通才冠军时代结束了

四、价格不变是最诚实的信号

Opus 4.7 定价保持 $5/$25(输入/输出 per million token)。

读起来像利好。其实不是。

两件事叠加:

1. 全行业推理天花板逼近,新版本的"质量增量"不再值得涨价

2. Opus 4.7 换了新 tokenizer,同样文本最多多吃 35% 的 token

等于一次隐形的 35% 涨价,但包装成"价格不变"。

这个信号比 benchmark 更值得读。它说的是:前沿模型的能力,正在从通用底座,流向特定方向的专项。通用能力不再值得多收钱,专项能力才是产品

你买的不再是"更高分的模型",你买的是"对你任务更对口的模型"。

五、从 IQ 轴到 Grit 轴:选型框架要换了

我自己交付 AI Agent 产品这几年,有个反直觉的体会:客户问题的天花板,极少是模型不够聪明

它几乎永远是模型在 40 步之后开始忘了第 3 步说过什么。是代码 agent 改了一个文件之后不记得还有 5 个关联文件。是规划阶段漏了一个边界条件,到执行阶段才崩。

这些都不是 IQ 问题,是 grit 问题——持续性、一致性、自我校验。

看 Opus 4.7 早期客户报告的数据点就很清楚:Notion 说工具调用错误从 Opus 4.6 降到三分之一;Rakuten 在自己的 SWE-Bench 上解决的生产任务是 Opus 4.6 的 3 倍;Imbue 直接让 Opus 4.7 从零自主搭了一个 Rust TTS 引擎——神经网络、SIMD 内核、浏览器 demo 全写完,然后反过来用语音识别器验证输出对不对。

这些数据全部在讲 grit,没有一个在讲 IQ。

同步发布的还有一个小细节值得注意:Claude Code 默认 effort 拉到了一个新档位 xhigh(比原先的 high 更高、比 max 更低)。这意味着"让它思考多久"变成了可调刻度。耐力本身成了明码标价的商品

Opus 4.7 的真正信号是:整个行业终于承认了这件事

所以从今天起,模型选型的问题变了。

不要再问 "哪个更聪明"。问这三个:

1. 它在我这条任务链上能跑多长不崩?(长时程一致性)

2. 它错了之后能不能自己发现?(自证能力)

3. 它的专业化方向和我重合吗?(Opus 4.7 擅长代码 agent,GPT-5.4 擅长终端和速度,Gemini 擅长超长上下文和成本)

这是三条独立的轴。没有一个模型在三轴都领先。

从 IQ 轴到 Grit 三轴 选型从"挑冠军"变成了"配方向"从挑冠军到配方向

六、为什么这件事比"SWE-bench +7 分"重要得多

SWE-bench 涨 7 分,是产品层事件。

推理军备竞赛结束,是产业层事件。

它意味着:

  • 下一代旗舰不会再靠 "IQ 震撼" 发新闻。新闻点要么是长时程、要么是成本、要么是专项突破
  • 模型间"碾压式差距"时代过去了。差异化取代等级化
  • Agent 产品的真正护城河,从 "用了最聪明的 Claude" 变成 "选对了适配自己任务链的模型 + 工程基础设施稳不稳"

我做 Agent 产品时最贵的 bug,从来不在 benchmark 分数里。它们在 token 膨胀里、在第 7 步的状态丢失里、在 agent 绕开了人的工具调用回路里。

Opus 4.7 把行业的视线从"天花板多高"拉到了"地基多稳"。

这比那几个跑分数字值钱得多。

收尾

Opus 4.7 发布当天,几乎所有人都在刷 SWE-bench Pro 64.3% 领先 GPT-5.4 的图。

我建议你忘了那张图。

真正要存档的是另一张图:GPT-5.4 Pro 94.4、Gemini 3.1 Pro 94.3、Claude Opus 4.7 94.2。

三家平手,推理竞赛悄悄结束。

下一页,开始比谁更有耐心。


参考数据:Anthropic 官方发布与 System Card、Project Glasswing 公告、Epoch AI GPQA 追踪、Vellum AI benchmark 分析、GDPval-AA 榜单(Artificial Analysis)、合作伙伴(Cognition/Vercel/Intuit/Factory/Notion/Rakuten/Imbue/XBOW)发布日数据。