Qwen3.6-35B-A3B 发布那两天,转发最多的截图是这张 benchmark:SWE-bench Verified 73.4。评论区的口径出奇一致——"开源模型终于追上 Claude Sonnet 了"。
这个叙事听起来合理,但它选错了焦点。
真正值得盯着看的不是 73.4。是两个别的数字:3B(激活参数)和 Apache 2.0(许可证)。
这两个数字加起来让一件事成立——单次 Agent 调用的成本可以降一个数量级。今天 5 美分的 Agent 回合,明天是 0.5 美分。
这不是"更便宜的 Claude"。这是 Agent 产品要重新设计的信号。
看一个具体的例子。一个典型的 Agent 任务回合——读上下文、推理、调工具、输出结果——大约消耗 5000 input token + 2000 output token。
按 Anthropic Claude Sonnet 4.5 定价:约 0.025 美元一回合。 按自托管 Qwen3.6-35B-A3B:约 0.002 美元一回合(只算 3B 激活推理的实际 GPU 时间)。
10 倍到 15 倍的差距。
这个差距不靠 Qwen 压价,也不靠 Anthropic 涨价。它来自一件结构性的事——MoE 让"推理成本"和"模型容量"解耦了。35B 参数带来"学到的能力",3B 激活决定"每次跑要付多少钱"。你可以一边有 35B 的知识,一边只付 3B 的账。
这件事 GPT-4 的 MoE 也在做,但闭源。Mixtral 也做了,但能力不够。Qwen3.6 第一次把"前沿能力 + 小激活参数 + Apache 2.0"凑齐。
这是文章的核心观点:成本降一个数量级不是"便宜点",是产品形态不一样了。
今天 Agent 产品设计的隐含前提是:token 贵。所以所有聪明的 Agent 工程师都在做同一件事——压缩 prompt、精简工具 schema、减少 reasoning 轮次、避免自我反思太多次。大家都在省钱。
如果 token 便宜 10 倍,这些约束全部消失。我能想到至少五件今天"理论上可行但经济上疯狂"的事,明天变成默认做法:
这五件事每一件单看都不是新东西——论文里讲烂了,benchmark 上验证过。但今天没人敢在生产环境默认开启,因为账算不过来。
成本变 10 分之 1,"能不能"的问题变成"要不要"。
有人会质疑:过去两年模型价格也一直在降啊,这次有什么特别?
特别就特别在"断点"这两个字。
过去两年 API 价格降是平滑的——Claude 3 → Claude 3.5 → Claude Opus 4 → Opus 4.7 → Sonnet 4.6,每次降 20%~50%,你会改参数但不会改产品架构。
这次不是 20%。这次是一次性 10x,而且触发条件是"换到另一套部署模型"。这个不连续性就是断点——谁先意识到断点在哪,谁先重构产品。
历史上类似的断点我能想到三个:
每次断点的特征都一样:单位成本 10x 下降,触发产品设计哲学的重写。Qwen3.6 + MoE + 开源,是 Agent 领域的同类时刻。
质疑一:个人开发者自己跑模型很贵啊,要 GPU 要运维要 scaling。
回应:对个人开发者确实。但 Agent 产品的主战场从一开始就是企业,不是个人。企业本来就有 K8s 集群、GPU 池、SRE 团队。部署 Qwen3.6 的增量成本是"多拉一个服务",不是"从零搭基建"。分摊到每次调用趋近零。
这个趋势下真正的事情是:企业自建 AI 基建的浪潮会加速。过去两年"先买 API,再看要不要自建"的默认选项,会在 Qwen3.6 这种能力水位的开源模型出来之后快速翻转。尤其是那些数据敏感行业——金融、医疗、政务——之前用 Claude 的理由是"能力不够不得不用",现在"够用"加"数据不出门"的组合吸引力太强。
质疑二:Claude Sonnet 4.5 真实世界能力肯定比 benchmark 强。
回应:大概率对。但对多少场景来说"大概率对"值 10 倍的价差?
我自己做 AgencyClaw 的时候测过一组:同一批销售邮件生成任务,Claude Sonnet 4.6 和 Qwen3.5 的输出人工评分差距在 5%~10%。这 5%~10% 在某些高价值场景(大客户、敏感谈判)值 10 倍价差,在绝大多数长尾场景(普通客户、模板邮件)不值。
前沿模型公司真正要防的不是 Qwen3.6 "追上",是 Qwen3.6 让 80% 的 Agent 场景不再需要前沿模型。
这个我单独拎出来谈。是真的,也不是。
真的:美国部分企业 IT 政策里 Qwen 确实进不来。 不是:Qwen 是 Apache 2.0,权重开源。你可以自己下载、自己部署、自己改一行代码、当做自己的 fine-tuned 模型用。权重在你本地,在哪个国家训练的不重要。
这就是 Apache 2.0 的真正价值——它把"来源敏感性"去掉了。合规团队看到的不是"用了中国模型",而是"用了某个开源权重,自己在 AWS us-east-1 部署"。
对做 Agent 产品的人,三条具体建议:
第一,做个成本审计。把你过去一个月所有 Agent 调用的 token 消耗拉出来,算一下按 Qwen3.6 自部署的成本。如果降 10x 之后你的单用户成本从"客单价的 30%"降到"客单价的 3%"——那 27% 的空间是你的设计红利,全部可以投入到"让 Agent 更聪明"。
第二,重新审视你认为"不可能"的功能。过去被"成本太高"否掉的点子全部翻出来再看。Agent 开 10 路并发?可以。Agent 每次调用前先 dry run 一遍?可以。Agent 每天晚上自己反思昨天的决策?可以。
第三,准备双模型架构。你的产品应该同时支持"前沿闭源"和"开源自部署"。不是为了省钱——是为了给客户选择权。敏感任务走 Claude,批量任务走 Qwen。这个架构做好的团队,接下来两年接单能力会比单模型的团队强一倍。
对 Anthropic 和 OpenAI:不说你们了,你们自己比我清楚。
Qwen3.6 不是一个模型发布。它是 Agent 经济学的换挡点。
送两句话:
Agent 的设计哲学要从"节省 token"翻成"挥霍 token"。
前沿模型公司真正要防的,从来不是"被开源追上",而是"80% 的场景不再需要前沿"。
挥霍是下一代 Agent 产品的默认姿态。第一批挥霍的人会吃到整块蛋糕。