返回博客

GPT-5.5 出牌了:OpenAI 和 Anthropic 已经不在同一个游戏里

GPT-5.5OpenAIAnthropicClaudeAILLM前沿模型观点
两家已经不在同一张桌子上

4 月 23 日,OpenAI 发布了 GPT-5.5。

热搜图是这张:Terminal-Bench 2.0 上,GPT-5.5 拿下 82.7%,把一周前刚发的 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)甩开一个身位。媒体标题一律写成"OpenAI 反超"、"王座易主"。

这个读法是错的。

两次发布相隔整整一周。把它们并排摆上桌,你会看见一件 benchmark 不告诉你的事:

OpenAI 和 Anthropic 已经不在解同一道题了。

一、两家发布会宣传的强项,几乎没有重叠

先看 GPT-5.5 的官方主打:

  • Terminal-Bench 2.0:82.7%
  • OSWorld-Verified:78.7%(计算机操作)
  • GDPval:84.9%(44 种职业的知识工作)
  • Tau2-bench Telecom:98.0%(客服工作流)

再看 Opus 4.7 一周前的主打:

  • SWE-bench Verified:87.6%(多文件代码修改)
  • SWE-bench Pro:64.3%
  • CursorBench:70%(IDE 代码助手)
  • OSWorld-Verified:78.0%

你数一下重叠的项:只有 OSWorld 一项,两家分数差 0.7 个百分点。

其他每一项,两家都选了不同的宣传赛道。OpenAI 挑的是"终端"、"计算机操作"、"职业知识工作"、"客服"。Anthropic 挑的是"改代码库"、"IDE 里的开发者"。

这不是巧合。这是公关部门提前半年定好的。

两家在主动告诉你,它们对"有用"的定义已经分岔了。

两家公关稿的强项几乎没有重叠

二、"像软件更新"这句话说对了一半

Fortune 那篇报道有一句漂亮话:AI 模型发布开始看起来像软件更新。

对,但不够。

软件更新分两种。一种是 iOS 19.3 到 19.4,修修 bug 换换图标。另一种是 iOS 18 到 iOS 26,产品方向重新画一遍。

GPT-5.5 是后一种,不是前一种。

OpenAI 强调的不是"更聪明的 GPT-5.4"。是 Codex 里的 agentic coding、是 ChatGPT 里"预判你下一步要问什么"的 superapp 化、是客服工作流里 98% 的任务成功率。

这是产品形态的版本号,不是智能水平的版本号。

以后看 GPT-x.x,你要看的不是模型变聪明了多少,而是 OpenAI 决定让它多做哪件事。

Anthropic 那边也一样。Opus 4.7 把能力明确压向"长时程代码 agent",甚至故意砍掉了网络安全能力。那个砍过一刀、加过一刀的模型,才是他们的产品。

三、GPT-5.5 Pro 是 OpenAI 放弃单一旗舰的公告

真正值得记住的数字不是 82.7%,是这个:

  • GPT-5.5:$5 / $30 每百万 token
  • GPT-5.5 Pro:$30 / $180 每百万 token

6 倍价差。

Anthropic 那边的镜像是什么?Opus 4.7 之外,还有一个没公开发布的 Mythos Preview,定价 $25 / $125,是 Opus 4.7 的整整 5 倍。Anthropic 用它专门解挖漏洞这一件事。

两家都开始做"旗舰产品线",而不是"旗舰产品"。

一个默认版,给大多数场景。一个高价版,给付得起的人去解最难的那个具体问题。

这意味着什么?单一旗舰打天下这个故事,两家都悄悄放弃了。

以前我们说"用 GPT-5"、"用 Claude Opus",像在说"用 iPhone"。现在这两个词都是"某个模型产品线的某个型号",像在说"用 Model S 还是 Model X"。

这是行业长大的信号。

四、两家选的路,是开发者工具 vs 消费平台的老故事

你把两家宣传稿的关键词拎出来,会读出一个经典分叉:

Anthropic 那边

  • "被设计来在数小时长的工作流里保持专注"
  • "在规划阶段就抓住自己的逻辑漏洞"
  • "从零自主搭了一个 Rust TTS 引擎"

OpenAI 那边

  • "预判用户下一步会问什么"
  • "这是为'真实工作'而生的新型智能"
  • "迈向 superapp 的关键一步"
  • "客服工作流 98% 任务成功率"

一边在描述一个不走神、能连 8 小时的 senior engineer

另一边在描述一个懂你、随叫随到的贴身秘书

这两件事不是同一件事。

Anthropic 把旗舰押在 IDE 里、Claude Code 里、Cursor 里。核心客户画像是开发者和企业工程团队。付费意愿来自"能不能省我一个工程师两天的活"。

OpenAI 把旗舰押在 ChatGPT 里、Codex 里、客服流里。核心客户画像更广——Plus 订阅用户、企业客服部门、做 consumer-facing agent 的产品团队。付费意愿来自"能不能成为用户粘着的那个 App"。

这是一条老得不能再老的分叉。Windows vs Mac。BlackBerry Enterprise vs iPhone。DataDog vs Notion。

AI 行业只是又走了一遍。

开发者工具 vs 消费平台

五、定价哲学也泄了底

最有意思的细节在两家的涨价方式。

Opus 4.7 官方说"价格不变",维持 $5 / $25。但同时换了 tokenizer,同一段文本要多吃最多 35% 的 token。合起来算是偷偷涨了一刀。

GPT-5.5 直接把输出价格明着抬到 $30,比 GPT-5.4 贵出一大截。

为什么两家的手法完全相反?

我猜的答案是:客户画像决定了定价哲学

Anthropic 服务的开发者和企业工程团队,对 token 成本极度敏感——一个周调用量就是百万美元的生意,涨 35% 你下个月的 PM 会在会上问"我们能不能换 Gemini"。所以只能偷偷涨,写在 tokenizer 里,让人事后才发现。

OpenAI 服务的主体是 ChatGPT Plus 订阅用户和 consumer-facing agent,API 只是其中一块。对 API 客户明着涨价,不会动摇真正重要的生意——那 8 亿周活用户才是他们的命根子。

定价也在告诉你:两家服务的人不一样。

六、对开发者的意义:选型问题换了

我自己这两年的感受是,最贵的 bug 从来不在跑分里。它们在 agent 第 7 步忘了第 3 步说过什么、token 意外膨胀到预算三倍、客户问了一个客服问题模型开始写代码。

现在选型的问题,已经不是"谁更聪明"。也不只是"谁更稳"(上一篇聊过)。

现在的问题更具体:

  1. 这家模型是为谁造的?(开发者 / 知识工作者 / 消费用户)
  2. 它的专业化方向和我的任务链重合吗?(多文件改代码 / 终端操作 / 客服工作流 / 长上下文检索)
  3. 旗舰产品线里我该买哪个型号?(默认版够用还是要上 Pro)

如果你在做 IDE 插件或代码 agent —— Opus 4.7。

如果你在做客服 agent 或 ChatGPT 插件 —— GPT-5.5。

如果你在做超长上下文或成本敏感的批处理 —— Gemini。

如果你在挖漏洞 —— Mythos Preview 或 GPT-5.5 Pro。

没有"最好的模型"。只有"最对口的模型"。

没有最好的模型,只有最对口的模型

收尾

Opus 4.7 那篇文章我写过:推理军备竞赛结束了。

一周之后,GPT-5.5 发布,OpenAI 公开接受了这件事。区别是,它们选的专业化方向和 Anthropic 完全相反——不是做工具,是做平台。不是服务开发者,是服务所有人。

两家旗舰实验室从同一张牌桌起身,各自走向不同的赛场。

接下来几个月,如果还有人跟你说"GPT 和 Claude 哪个更强",你可以告诉他:这个问题从这一周开始,已经没有意义了。


参考数据:OpenAI GPT-5.5 官方发布公告(2026-04-23)、Anthropic Opus 4.7 System Card、Artificial Analysis 跑分、Fortune / TechCrunch / Decrypt / Fast Company 发布日报道。