返回博客

Qwen3.6 不是开源追赶闭源——它是 Agent 经济学的断点

Qwen开源模型AgentMoE成本分析
hero

那个被大家记住的数字是错的

Qwen3.6-35B-A3B 发布那两天,转发最多的截图是这张 benchmark:SWE-bench Verified 73.4。评论区的口径出奇一致——"开源模型终于追上 Claude Sonnet 了"。

这个叙事听起来合理,但它选错了焦点。

真正值得盯着看的不是 73.4。是两个别的数字:3B(激活参数)和 Apache 2.0(许可证)。

这两个数字加起来让一件事成立——单次 Agent 调用的成本可以降一个数量级。今天 5 美分的 Agent 回合,明天是 0.5 美分。

这不是"更便宜的 Claude"。这是 Agent 产品要重新设计的信号。

MoE 稀疏激活——35 中只亮 3

先把成本算清楚

看一个具体的例子。一个典型的 Agent 任务回合——读上下文、推理、调工具、输出结果——大约消耗 5000 input token + 2000 output token。

按 Anthropic Claude Sonnet 4.5 定价:约 0.025 美元一回合。 按自托管 Qwen3.6-35B-A3B:约 0.002 美元一回合(只算 3B 激活推理的实际 GPU 时间)。

10 倍到 15 倍的差距。

这个差距不靠 Qwen 压价,也不靠 Anthropic 涨价。它来自一件结构性的事——MoE 让"推理成本"和"模型容量"解耦了。35B 参数带来"学到的能力",3B 激活决定"每次跑要付多少钱"。你可以一边有 35B 的知识,一边只付 3B 的账。

这件事 GPT-4 的 MoE 也在做,但闭源。Mixtral 也做了,但能力不够。Qwen3.6 第一次把"前沿能力 + 小激活参数 + Apache 2.0"凑齐。

挥霍的商人

10x 的成本差,不是线性改进

这是文章的核心观点:成本降一个数量级不是"便宜点",是产品形态不一样了。

今天 Agent 产品设计的隐含前提是:token 贵。所以所有聪明的 Agent 工程师都在做同一件事——压缩 prompt、精简工具 schema、减少 reasoning 轮次、避免自我反思太多次。大家都在省钱。

如果 token 便宜 10 倍,这些约束全部消失。我能想到至少五件今天"理论上可行但经济上疯狂"的事,明天变成默认做法:

  • 让 Agent 对同一个任务跑 10 次,投票选最好的结果。今天做一次就心疼,明天做 10 次比做 1 次贵 1 美分。
  • 让 Agent 自我反思 5 轮。今天 reflection 加一轮要考虑收益,明天不加就是懒。
  • Multi-agent 并发跑一个任务。今天部署 5 个 Agent 客户要付 5 倍钱,明天付 0.5 倍。
  • Agent 背着用户先"演练"整个任务一遍,识别风险点再执行。今天属于豪华配置,明天是基本操作。
  • "超长上下文 + 工具全展开"当默认。今天要斟酌 context 塞什么,明天全塞进去。

这五件事每一件单看都不是新东西——论文里讲烂了,benchmark 上验证过。但今天没人敢在生产环境默认开启,因为账算不过来。

成本变 10 分之 1,"能不能"的问题变成"要不要"。

逻辑推演:为什么是断点不是渐变

有人会质疑:过去两年模型价格也一直在降啊,这次有什么特别?

特别就特别在"断点"这两个字。

过去两年 API 价格降是平滑的——Claude 3 → Claude 3.5 → Claude Opus 4 → Opus 4.7 → Sonnet 4.6,每次降 20%~50%,你会改参数但不会改产品架构。

这次不是 20%。这次是一次性 10x,而且触发条件是"换到另一套部署模型"。这个不连续性就是断点——谁先意识到断点在哪,谁先重构产品。

历史上类似的断点我能想到三个:

  • 2008 年 EC2 把服务器成本从"资本支出"变成"可变支出"。做 Web 产品的人重新设计了架构(微服务、弹性伸缩、按需起实例)。没跟上的公司被追平。
  • 2015 年 iPhone 6s 的摄像头把"拍照质量"从专业相机门槛降到手机门槛。Instagram 设计对了,传统图像社区没设计对。
  • 2020 年 Twilio 把"发短信"从电信合同降到 API 调用。Uber 能两周做个城市的验证码系统,OEM 出租车公司还在走供应商流程。

每次断点的特征都一样:单位成本 10x 下降,触发产品设计哲学的重写。Qwen3.6 + MoE + 开源,是 Agent 领域的同类时刻。

反面论证:开源运维很贵

质疑一:个人开发者自己跑模型很贵啊,要 GPU 要运维要 scaling。

回应:对个人开发者确实。但 Agent 产品的主战场从一开始就是企业,不是个人。企业本来就有 K8s 集群、GPU 池、SRE 团队。部署 Qwen3.6 的增量成本是"多拉一个服务",不是"从零搭基建"。分摊到每次调用趋近零。

这个趋势下真正的事情是:企业自建 AI 基建的浪潮会加速。过去两年"先买 API,再看要不要自建"的默认选项,会在 Qwen3.6 这种能力水位的开源模型出来之后快速翻转。尤其是那些数据敏感行业——金融、医疗、政务——之前用 Claude 的理由是"能力不够不得不用",现在"够用"加"数据不出门"的组合吸引力太强。

质疑二:Claude Sonnet 4.5 真实世界能力肯定比 benchmark 强。

回应:大概率对。但对多少场景来说"大概率对"值 10 倍的价差?

我自己做 AgencyClaw 的时候测过一组:同一批销售邮件生成任务,Claude Sonnet 4.6 和 Qwen3.5 的输出人工评分差距在 5%~10%。这 5%~10% 在某些高价值场景(大客户、敏感谈判)值 10 倍价差,在绝大多数长尾场景(普通客户、模板邮件)不值。

前沿模型公司真正要防的不是 Qwen3.6 "追上",是 Qwen3.6 让 80% 的 Agent 场景不再需要前沿模型

质疑三:Qwen 是中国模型,很多客户不会用

这个我单独拎出来谈。是真的,也不是。

真的:美国部分企业 IT 政策里 Qwen 确实进不来。 不是:Qwen 是 Apache 2.0,权重开源。你可以自己下载、自己部署、自己改一行代码、当做自己的 fine-tuned 模型用。权重在你本地,在哪个国家训练的不重要。

这就是 Apache 2.0 的真正价值——它把"来源敏感性"去掉了。合规团队看到的不是"用了中国模型",而是"用了某个开源权重,自己在 AWS us-east-1 部署"。

所以你该做什么

对做 Agent 产品的人,三条具体建议:

第一,做个成本审计。把你过去一个月所有 Agent 调用的 token 消耗拉出来,算一下按 Qwen3.6 自部署的成本。如果降 10x 之后你的单用户成本从"客单价的 30%"降到"客单价的 3%"——那 27% 的空间是你的设计红利,全部可以投入到"让 Agent 更聪明"。

第二,重新审视你认为"不可能"的功能。过去被"成本太高"否掉的点子全部翻出来再看。Agent 开 10 路并发?可以。Agent 每次调用前先 dry run 一遍?可以。Agent 每天晚上自己反思昨天的决策?可以。

第三,准备双模型架构。你的产品应该同时支持"前沿闭源"和"开源自部署"。不是为了省钱——是为了给客户选择权。敏感任务走 Claude,批量任务走 Qwen。这个架构做好的团队,接下来两年接单能力会比单模型的团队强一倍。

对 Anthropic 和 OpenAI:不说你们了,你们自己比我清楚。

我的常规金句收尾

Qwen3.6 不是一个模型发布。它是 Agent 经济学的换挡点。

送两句话:

Agent 的设计哲学要从"节省 token"翻成"挥霍 token"。

前沿模型公司真正要防的,从来不是"被开源追上",而是"80% 的场景不再需要前沿"。

挥霍是下一代 Agent 产品的默认姿态。第一批挥霍的人会吃到整块蛋糕。