GPT-5.5 出牌了：OpenAI 和 Anthropic 已经不在同一个游戏里

4 月 23 日，OpenAI 发布了 GPT-5.5。

热搜图是这张：Terminal-Bench 2.0 上，GPT-5.5 拿下 82.7%，把一周前刚发的 Claude Opus 4.7（69.4%）和 Gemini 3.1 Pro（68.5%）甩开一个身位。媒体标题一律写成"OpenAI 反超"、"王座易主"。

这个读法是错的。

两次发布相隔整整一周。把它们并排摆上桌，你会看见一件 benchmark 不告诉你的事：

OpenAI 和 Anthropic 已经不在解同一道题了。

一、两家发布会宣传的强项，几乎没有重叠

先看 GPT-5.5 的官方主打：

Terminal-Bench 2.0：82.7%
OSWorld-Verified：78.7%（计算机操作）
GDPval：84.9%（44 种职业的知识工作）
Tau2-bench Telecom：98.0%（客服工作流）

再看 Opus 4.7 一周前的主打：

SWE-bench Verified：87.6%（多文件代码修改）
SWE-bench Pro：64.3%
CursorBench：70%（IDE 代码助手）
OSWorld-Verified：78.0%

你数一下重叠的项：只有 OSWorld 一项，两家分数差 0.7 个百分点。

其他每一项，两家都选了不同的宣传赛道。OpenAI 挑的是"终端"、"计算机操作"、"职业知识工作"、"客服"。Anthropic 挑的是"改代码库"、"IDE 里的开发者"。

这不是巧合。这是公关部门提前半年定好的。

两家在主动告诉你，它们对"有用"的定义已经分岔了。

二、"像软件更新"这句话说对了一半

Fortune 那篇报道有一句漂亮话：AI 模型发布开始看起来像软件更新。

对，但不够。

软件更新分两种。一种是 iOS 19.3 到 19.4，修修 bug 换换图标。另一种是 iOS 18 到 iOS 26，产品方向重新画一遍。

GPT-5.5 是后一种，不是前一种。

OpenAI 强调的不是"更聪明的 GPT-5.4"。是 Codex 里的 agentic coding、是 ChatGPT 里"预判你下一步要问什么"的 superapp 化、是客服工作流里 98% 的任务成功率。

这是产品形态的版本号，不是智能水平的版本号。

以后看 GPT-x.x，你要看的不是模型变聪明了多少，而是 OpenAI 决定让它多做哪件事。

Anthropic 那边也一样。Opus 4.7 把能力明确压向"长时程代码 agent"，甚至故意砍掉了网络安全能力。那个砍过一刀、加过一刀的模型，才是他们的产品。

三、GPT-5.5 Pro 是 OpenAI 放弃单一旗舰的公告

真正值得记住的数字不是 82.7%，是这个：

GPT-5.5：$5 / $30 每百万 token
GPT-5.5 Pro：$30 / $180 每百万 token

6 倍价差。

Anthropic 那边的镜像是什么？Opus 4.7 之外，还有一个没公开发布的 Mythos Preview，定价 $25 / $125，是 Opus 4.7 的整整 5 倍。Anthropic 用它专门解挖漏洞这一件事。

两家都开始做"旗舰产品线"，而不是"旗舰产品"。

一个默认版，给大多数场景。一个高价版，给付得起的人去解最难的那个具体问题。

这意味着什么？单一旗舰打天下这个故事，两家都悄悄放弃了。

以前我们说"用 GPT-5"、"用 Claude Opus"，像在说"用 iPhone"。现在这两个词都是"某个模型产品线的某个型号"，像在说"用 Model S 还是 Model X"。

这是行业长大的信号。

四、两家选的路，是开发者工具 vs 消费平台的老故事

你把两家宣传稿的关键词拎出来，会读出一个经典分叉：

Anthropic 那边：

"被设计来在数小时长的工作流里保持专注"
"在规划阶段就抓住自己的逻辑漏洞"
"从零自主搭了一个 Rust TTS 引擎"

OpenAI 那边：

"预判用户下一步会问什么"
"这是为'真实工作'而生的新型智能"
"迈向 superapp 的关键一步"
"客服工作流 98% 任务成功率"

一边在描述一个不走神、能连 8 小时的 senior engineer。

另一边在描述一个懂你、随叫随到的贴身秘书。

这两件事不是同一件事。

Anthropic 把旗舰押在 IDE 里、Claude Code 里、Cursor 里。核心客户画像是开发者和企业工程团队。付费意愿来自"能不能省我一个工程师两天的活"。

OpenAI 把旗舰押在 ChatGPT 里、Codex 里、客服流里。核心客户画像更广——Plus 订阅用户、企业客服部门、做 consumer-facing agent 的产品团队。付费意愿来自"能不能成为用户粘着的那个 App"。

这是一条老得不能再老的分叉。Windows vs Mac。BlackBerry Enterprise vs iPhone。DataDog vs Notion。

AI 行业只是又走了一遍。

五、定价哲学也泄了底

最有意思的细节在两家的涨价方式。

Opus 4.7 官方说"价格不变"，维持 $5 / $25。但同时换了 tokenizer，同一段文本要多吃最多 35% 的 token。合起来算是偷偷涨了一刀。

GPT-5.5 直接把输出价格明着抬到 $30，比 GPT-5.4 贵出一大截。

为什么两家的手法完全相反？

我猜的答案是：客户画像决定了定价哲学。

Anthropic 服务的开发者和企业工程团队，对 token 成本极度敏感——一个周调用量就是百万美元的生意，涨 35% 你下个月的 PM 会在会上问"我们能不能换 Gemini"。所以只能偷偷涨，写在 tokenizer 里，让人事后才发现。

OpenAI 服务的主体是 ChatGPT Plus 订阅用户和 consumer-facing agent，API 只是其中一块。对 API 客户明着涨价，不会动摇真正重要的生意——那 8 亿周活用户才是他们的命根子。

定价也在告诉你：两家服务的人不一样。

六、对开发者的意义：选型问题换了

我自己这两年的感受是，最贵的 bug 从来不在跑分里。它们在 agent 第 7 步忘了第 3 步说过什么、token 意外膨胀到预算三倍、客户问了一个客服问题模型开始写代码。

现在选型的问题，已经不是"谁更聪明"。也不只是"谁更稳"（上一篇聊过）。

现在的问题更具体：

这家模型是为谁造的？（开发者 / 知识工作者 / 消费用户）
它的专业化方向和我的任务链重合吗？（多文件改代码 / 终端操作 / 客服工作流 / 长上下文检索）
旗舰产品线里我该买哪个型号？（默认版够用还是要上 Pro）

如果你在做 IDE 插件或代码 agent —— Opus 4.7。

如果你在做客服 agent 或 ChatGPT 插件 —— GPT-5.5。

如果你在做超长上下文或成本敏感的批处理 —— Gemini。

如果你在挖漏洞 —— Mythos Preview 或 GPT-5.5 Pro。

没有"最好的模型"。只有"最对口的模型"。

收尾

Opus 4.7 那篇文章我写过：推理军备竞赛结束了。

一周之后，GPT-5.5 发布，OpenAI 公开接受了这件事。区别是，它们选的专业化方向和 Anthropic 完全相反——不是做工具，是做平台。不是服务开发者，是服务所有人。

两家旗舰实验室从同一张牌桌起身，各自走向不同的赛场。

接下来几个月，如果还有人跟你说"GPT 和 Claude 哪个更强"，你可以告诉他：这个问题从这一周开始，已经没有意义了。

参考数据：OpenAI GPT-5.5 官方发布公告（2026-04-23）、Anthropic Opus 4.7 System Card、Artificial Analysis 跑分、Fortune / TechCrunch / Decrypt / Fast Company 发布日报道。