Qwen3.6 不是开源追赶闭源——它是 Agent 经济学的断点

那个被大家记住的数字是错的

Qwen3.6-35B-A3B 发布那两天，转发最多的截图是这张 benchmark：SWE-bench Verified 73.4。评论区的口径出奇一致——"开源模型终于追上 Claude Sonnet 了"。

这个叙事听起来合理，但它选错了焦点。

真正值得盯着看的不是 73.4。是两个别的数字：3B（激活参数）和 Apache 2.0（许可证）。

这两个数字加起来让一件事成立——单次 Agent 调用的成本可以降一个数量级。今天 5 美分的 Agent 回合，明天是 0.5 美分。

这不是"更便宜的 Claude"。这是 Agent 产品要重新设计的信号。

先把成本算清楚

看一个具体的例子。一个典型的 Agent 任务回合——读上下文、推理、调工具、输出结果——大约消耗 5000 input token + 2000 output token。

按 Anthropic Claude Sonnet 4.5 定价：约 0.025 美元一回合。按自托管 Qwen3.6-35B-A3B：约 0.002 美元一回合（只算 3B 激活推理的实际 GPU 时间）。

10 倍到 15 倍的差距。

这个差距不靠 Qwen 压价，也不靠 Anthropic 涨价。它来自一件结构性的事——MoE 让"推理成本"和"模型容量"解耦了。35B 参数带来"学到的能力"，3B 激活决定"每次跑要付多少钱"。你可以一边有 35B 的知识，一边只付 3B 的账。

这件事 GPT-4 的 MoE 也在做，但闭源。Mixtral 也做了，但能力不够。Qwen3.6 第一次把"前沿能力 + 小激活参数 + Apache 2.0"凑齐。

10x 的成本差，不是线性改进

这是文章的核心观点：成本降一个数量级不是"便宜点"，是产品形态不一样了。

今天 Agent 产品设计的隐含前提是：token 贵。所以所有聪明的 Agent 工程师都在做同一件事——压缩 prompt、精简工具 schema、减少 reasoning 轮次、避免自我反思太多次。大家都在省钱。

如果 token 便宜 10 倍，这些约束全部消失。我能想到至少五件今天"理论上可行但经济上疯狂"的事，明天变成默认做法：

让 Agent 对同一个任务跑 10 次，投票选最好的结果。今天做一次就心疼，明天做 10 次比做 1 次贵 1 美分。
让 Agent 自我反思 5 轮。今天 reflection 加一轮要考虑收益，明天不加就是懒。
Multi-agent 并发跑一个任务。今天部署 5 个 Agent 客户要付 5 倍钱，明天付 0.5 倍。
Agent 背着用户先"演练"整个任务一遍，识别风险点再执行。今天属于豪华配置，明天是基本操作。
"超长上下文 + 工具全展开"当默认。今天要斟酌 context 塞什么，明天全塞进去。

这五件事每一件单看都不是新东西——论文里讲烂了，benchmark 上验证过。但今天没人敢在生产环境默认开启，因为账算不过来。

成本变 10 分之 1，"能不能"的问题变成"要不要"。

逻辑推演：为什么是断点不是渐变

有人会质疑：过去两年模型价格也一直在降啊，这次有什么特别？

特别就特别在"断点"这两个字。

过去两年 API 价格降是平滑的——Claude 3 → Claude 3.5 → Claude Opus 4 → Opus 4.7 → Sonnet 4.6，每次降 20%~50%，你会改参数但不会改产品架构。

这次不是 20%。这次是一次性 10x，而且触发条件是"换到另一套部署模型"。这个不连续性就是断点——谁先意识到断点在哪，谁先重构产品。

历史上类似的断点我能想到三个：

2008 年 EC2 把服务器成本从"资本支出"变成"可变支出"。做 Web 产品的人重新设计了架构（微服务、弹性伸缩、按需起实例）。没跟上的公司被追平。
2015 年 iPhone 6s 的摄像头把"拍照质量"从专业相机门槛降到手机门槛。Instagram 设计对了，传统图像社区没设计对。
2020 年 Twilio 把"发短信"从电信合同降到 API 调用。Uber 能两周做个城市的验证码系统，OEM 出租车公司还在走供应商流程。

每次断点的特征都一样：单位成本 10x 下降，触发产品设计哲学的重写。Qwen3.6 + MoE + 开源，是 Agent 领域的同类时刻。

反面论证：开源运维很贵

质疑一：个人开发者自己跑模型很贵啊，要 GPU 要运维要 scaling。

回应：对个人开发者确实。但 Agent 产品的主战场从一开始就是企业，不是个人。企业本来就有 K8s 集群、GPU 池、SRE 团队。部署 Qwen3.6 的增量成本是"多拉一个服务"，不是"从零搭基建"。分摊到每次调用趋近零。

这个趋势下真正的事情是：企业自建 AI 基建的浪潮会加速。过去两年"先买 API，再看要不要自建"的默认选项，会在 Qwen3.6 这种能力水位的开源模型出来之后快速翻转。尤其是那些数据敏感行业——金融、医疗、政务——之前用 Claude 的理由是"能力不够不得不用"，现在"够用"加"数据不出门"的组合吸引力太强。

质疑二：Claude Sonnet 4.5 真实世界能力肯定比 benchmark 强。

回应：大概率对。但对多少场景来说"大概率对"值 10 倍的价差？

我自己做 AgencyClaw 的时候测过一组：同一批销售邮件生成任务，Claude Sonnet 4.6 和 Qwen3.5 的输出人工评分差距在 5%~10%。这 5%~10% 在某些高价值场景（大客户、敏感谈判）值 10 倍价差，在绝大多数长尾场景（普通客户、模板邮件）不值。

前沿模型公司真正要防的不是 Qwen3.6 "追上"，是 Qwen3.6 让 80% 的 Agent 场景不再需要前沿模型。

质疑三：Qwen 是中国模型，很多客户不会用

这个我单独拎出来谈。是真的，也不是。

真的：美国部分企业 IT 政策里 Qwen 确实进不来。不是：Qwen 是 Apache 2.0，权重开源。你可以自己下载、自己部署、自己改一行代码、当做自己的 fine-tuned 模型用。权重在你本地，在哪个国家训练的不重要。

这就是 Apache 2.0 的真正价值——它把"来源敏感性"去掉了。合规团队看到的不是"用了中国模型"，而是"用了某个开源权重，自己在 AWS us-east-1 部署"。

所以你该做什么

对做 Agent 产品的人，三条具体建议：

第一，做个成本审计。把你过去一个月所有 Agent 调用的 token 消耗拉出来，算一下按 Qwen3.6 自部署的成本。如果降 10x 之后你的单用户成本从"客单价的 30%"降到"客单价的 3%"——那 27% 的空间是你的设计红利，全部可以投入到"让 Agent 更聪明"。

第二，重新审视你认为"不可能"的功能。过去被"成本太高"否掉的点子全部翻出来再看。Agent 开 10 路并发？可以。Agent 每次调用前先 dry run 一遍？可以。Agent 每天晚上自己反思昨天的决策？可以。

第三，准备双模型架构。你的产品应该同时支持"前沿闭源"和"开源自部署"。不是为了省钱——是为了给客户选择权。敏感任务走 Claude，批量任务走 Qwen。这个架构做好的团队，接下来两年接单能力会比单模型的团队强一倍。

对 Anthropic 和 OpenAI：不说你们了，你们自己比我清楚。

我的常规金句收尾

Qwen3.6 不是一个模型发布。它是 Agent 经济学的换挡点。

送两句话：

Agent 的设计哲学要从"节省 token"翻成"挥霍 token"。

前沿模型公司真正要防的，从来不是"被开源追上"，而是"80% 的场景不再需要前沿"。

挥霍是下一代 Agent 产品的默认姿态。第一批挥霍的人会吃到整块蛋糕。