4 月 23 日,OpenAI 发布了 GPT-5.5。
热搜图是这张:Terminal-Bench 2.0 上,GPT-5.5 拿下 82.7%,把一周前刚发的 Claude Opus 4.7(69.4%)和 Gemini 3.1 Pro(68.5%)甩开一个身位。媒体标题一律写成"OpenAI 反超"、"王座易主"。
这个读法是错的。
两次发布相隔整整一周。把它们并排摆上桌,你会看见一件 benchmark 不告诉你的事:
OpenAI 和 Anthropic 已经不在解同一道题了。
先看 GPT-5.5 的官方主打:
再看 Opus 4.7 一周前的主打:
你数一下重叠的项:只有 OSWorld 一项,两家分数差 0.7 个百分点。
其他每一项,两家都选了不同的宣传赛道。OpenAI 挑的是"终端"、"计算机操作"、"职业知识工作"、"客服"。Anthropic 挑的是"改代码库"、"IDE 里的开发者"。
这不是巧合。这是公关部门提前半年定好的。
两家在主动告诉你,它们对"有用"的定义已经分岔了。
Fortune 那篇报道有一句漂亮话:AI 模型发布开始看起来像软件更新。
对,但不够。
软件更新分两种。一种是 iOS 19.3 到 19.4,修修 bug 换换图标。另一种是 iOS 18 到 iOS 26,产品方向重新画一遍。
GPT-5.5 是后一种,不是前一种。
OpenAI 强调的不是"更聪明的 GPT-5.4"。是 Codex 里的 agentic coding、是 ChatGPT 里"预判你下一步要问什么"的 superapp 化、是客服工作流里 98% 的任务成功率。
这是产品形态的版本号,不是智能水平的版本号。
以后看 GPT-x.x,你要看的不是模型变聪明了多少,而是 OpenAI 决定让它多做哪件事。
Anthropic 那边也一样。Opus 4.7 把能力明确压向"长时程代码 agent",甚至故意砍掉了网络安全能力。那个砍过一刀、加过一刀的模型,才是他们的产品。
真正值得记住的数字不是 82.7%,是这个:
6 倍价差。
Anthropic 那边的镜像是什么?Opus 4.7 之外,还有一个没公开发布的 Mythos Preview,定价 $25 / $125,是 Opus 4.7 的整整 5 倍。Anthropic 用它专门解挖漏洞这一件事。
两家都开始做"旗舰产品线",而不是"旗舰产品"。
一个默认版,给大多数场景。一个高价版,给付得起的人去解最难的那个具体问题。
这意味着什么?单一旗舰打天下这个故事,两家都悄悄放弃了。
以前我们说"用 GPT-5"、"用 Claude Opus",像在说"用 iPhone"。现在这两个词都是"某个模型产品线的某个型号",像在说"用 Model S 还是 Model X"。
这是行业长大的信号。
你把两家宣传稿的关键词拎出来,会读出一个经典分叉:
Anthropic 那边:
OpenAI 那边:
一边在描述一个不走神、能连 8 小时的 senior engineer。
另一边在描述一个懂你、随叫随到的贴身秘书。
这两件事不是同一件事。
Anthropic 把旗舰押在 IDE 里、Claude Code 里、Cursor 里。核心客户画像是开发者和企业工程团队。付费意愿来自"能不能省我一个工程师两天的活"。
OpenAI 把旗舰押在 ChatGPT 里、Codex 里、客服流里。核心客户画像更广——Plus 订阅用户、企业客服部门、做 consumer-facing agent 的产品团队。付费意愿来自"能不能成为用户粘着的那个 App"。
这是一条老得不能再老的分叉。Windows vs Mac。BlackBerry Enterprise vs iPhone。DataDog vs Notion。
AI 行业只是又走了一遍。
最有意思的细节在两家的涨价方式。
Opus 4.7 官方说"价格不变",维持 $5 / $25。但同时换了 tokenizer,同一段文本要多吃最多 35% 的 token。合起来算是偷偷涨了一刀。
GPT-5.5 直接把输出价格明着抬到 $30,比 GPT-5.4 贵出一大截。
为什么两家的手法完全相反?
我猜的答案是:客户画像决定了定价哲学。
Anthropic 服务的开发者和企业工程团队,对 token 成本极度敏感——一个周调用量就是百万美元的生意,涨 35% 你下个月的 PM 会在会上问"我们能不能换 Gemini"。所以只能偷偷涨,写在 tokenizer 里,让人事后才发现。
OpenAI 服务的主体是 ChatGPT Plus 订阅用户和 consumer-facing agent,API 只是其中一块。对 API 客户明着涨价,不会动摇真正重要的生意——那 8 亿周活用户才是他们的命根子。
定价也在告诉你:两家服务的人不一样。
我自己这两年的感受是,最贵的 bug 从来不在跑分里。它们在 agent 第 7 步忘了第 3 步说过什么、token 意外膨胀到预算三倍、客户问了一个客服问题模型开始写代码。
现在选型的问题,已经不是"谁更聪明"。也不只是"谁更稳"(上一篇聊过)。
现在的问题更具体:
如果你在做 IDE 插件或代码 agent —— Opus 4.7。
如果你在做客服 agent 或 ChatGPT 插件 —— GPT-5.5。
如果你在做超长上下文或成本敏感的批处理 —— Gemini。
如果你在挖漏洞 —— Mythos Preview 或 GPT-5.5 Pro。
没有"最好的模型"。只有"最对口的模型"。
Opus 4.7 那篇文章我写过:推理军备竞赛结束了。
一周之后,GPT-5.5 发布,OpenAI 公开接受了这件事。区别是,它们选的专业化方向和 Anthropic 完全相反——不是做工具,是做平台。不是服务开发者,是服务所有人。
两家旗舰实验室从同一张牌桌起身,各自走向不同的赛场。
接下来几个月,如果还有人跟你说"GPT 和 Claude 哪个更强",你可以告诉他:这个问题从这一周开始,已经没有意义了。
参考数据:OpenAI GPT-5.5 官方发布公告(2026-04-23)、Anthropic Opus 4.7 System Card、Artificial Analysis 跑分、Fortune / TechCrunch / Decrypt / Fast Company 发布日报道。