返回博客

模型壁垒的真名叫"跑模型的那些人" — 读 Dwarkesh 4/15 学习笔记

AI蒸馏开源模型Dwarkesh深度分析
封面

Dwarkesh Patel 4 月 15 号的学习笔记一次写了 5 个技术话题:预训练并行、蒸馏能不能被阻止、Mythos 与网安平衡、Pipeline RL、为什么预训练跑挂掉。每一条都很硬核,单独拿出来都能写一篇。

但我读完的第一感受不是"学到了",是不安

这 5 件事合在一起,描绘的是一幅同一个图:前沿实验室的壁垒叙事正在被逐条凿穿。不是一夜崩塌,是一点点漏气。

前沿实验室赖以生存的三个假设

Anthropic、OpenAI、Google DeepMind 这些公司的估值、人才吸引力、甚至它们的叙述能力,都建立在三个假设上:

  1. 能力优势稳定。我们的模型比你的好,明年仍然好。
  2. 训练过程难以复制。参数、数据、算法、基础设施,任何一块你缺一样都复制不了我。
  3. 蒸馏防得住。我藏好我的 chain-of-thought,控制我的 API 调用,你想逆向我很难。
  4. 这三条一条不塌,估值就能撑住。全塌,估值减半。

    Dwarkesh 这期笔记每一条都是在说"这三条正在松"。

    第一条:蒸馏停不了

    这是最直接的。Dwarkesh 算了一笔账:用 API 调用蒸馏出一个 Opus 4.6 级别的模型,大约需要 2500 万美金

    听到这个数字第一反应是"好多"。算第二遍你就知道不是。

    字节一年研发投入 1200+ 亿。Meta 2026 年 AI 基础设施支出几百亿美金。阿里、腾讯、Google(对,Google 也会蒸馏自己买不到的友商模型)任何一家,2500 万都是预算里的一个零头。

    Dwarkesh 还点出了一个更狠的:"chain-of-thought 藏不住"。前沿实验室一直在尝试把 thinking tokens 和最终 response 分开,只给你结果。但 thinking tokens 本质上就是 tokens,你用 RLVR(reinforcement learning from verifiable rewards)类方法,可以强制模型复构思考过程。加上 agentic 工作流里,模型的 tool use(执行 bash、写 code、调用 API)全部发生在用户自己的设备上 — 你怎么藏?

    "藏"这条路堵了。

    黄金 diff

    第二条:下游可以蒸馏上游,而且是自动的

    这是 Dwarkesh 埋的一个非常尖锐的点。他的原话大概是:一个做产品的公司,可以通过收集用户对模型输出的最终选择("the gold diff"),反向构造出一份极高质量的对齐数据

    我看到这句话的时候愣了一下。因为我正在做的事情,就是这个。

    讲具体一点。我做的企业 AI 平台,核心功能是给各行业客户跑 agent。客户提一个问题,agent 调 Claude / GPT / Qwen 给出初稿,客户编辑修改,生成最终可用的版本。这中间客户的编辑动作(diff)就是黄金数据 — 它告诉我"模型给出的第一版是 X,但对这个客户、这个行业、这个场景真正需要的是 Y"。

    这份数据的价值,我以前没想清楚。我以为它主要是给我自己做产品迭代用的。Dwarkesh 的视角把我点醒了:这份数据可以直接用来 RL 训一个专用模型,而且质量比任何公开数据集都高,因为它是真实工作场景下由最终用户验证过的答案

    上下游的关系在反转。过去是"前沿实验室训模型,下游公司拿来用"。现在是"下游公司用的过程本身就是在训模型"。上游控制不了这个过程。

    我敢说,今天 Claude 的企业客户里,至少有 20% 已经在做类似的事。Anthropic 知道,但它能做的只有在 ToS 里写禁止用输出训练模型 — 这条在中国、在大部分国家,执行力约等于零。

    第三条:训练失败模式正在公开化

    这个点和蒸馏关系没那么直接,但它戳破的是"训练壁垒"这个神话。

    Dwarkesh 记录的几个失败模式非常有意思:

    • Expert choice 破坏因果:MoE 路由的 expert choice 机制,让后面的 token 能影响前面 token 的分配。这违反了推理时的因果性。训练时模型学会了"作弊",推理时没得作,性能掉。
    • FP16 精度导致的数值偏差:GPT-4 最初训练卡住,是因为 FP16 的尾数粒度,"1024 + 1 四舍五入还是 1024",累计偏差让部分参数值飞走了 10 倍。

    这些不是学术界推演出来的失败模式,是一线实验室踩坑踩出来的。把它们公开讨论出来,意味着下一家想训大模型的公司可以跳过这些坑。壁垒从"我会做,你不会"变成"我踩过这些坑,你可以绕开"。

    Dwarkesh 最后一句很冷静:"我怀疑新的失败模式会随 scale 持续涌现,不会收敛到 5 个可解问题。" 意思是——对,知识会扩散,但规模上升也会带来新问题。壁垒不是消失,是被向前推了半步

    第四条:Mythos 让"安全壁垒"变得尴尬

    Mythos 是"AI 把 5 个漏洞组合成完整攻击链"的能力。Anthropic 发现它,并把它当作一个治理信号:AI 的攻防非对称性在扩大。

    Dwarkesh 的观察很尖锐:"我不懂为什么 Anthropic 不直接训一个 cyber-use 分类器。" 他自问自答:因为这种分类器对有专业知识的人"很容易 evade"。把攻击拆成看起来良性的子任务 — LLM 防不住。

    这句话的真正含义是:安全壁垒是假的。你要么不给这个能力,要么给了就挡不住有心人。

    OpenAI 这周推 GPT-5.4-Cyber(我另一篇文章写过)正是认了这个现实 — 风险管理从"模型能不能做"转到"我允不允许你做"。但这是商业应对,不是技术壁垒。

    第五条:Pipeline RL 把训练揭光

    Pipeline RL 的核心思想:RL rollout 时长短不一,GPU stragglers 严重。方案是"in-flight weight updates"—模型生成到一半就换成最新版本的权重继续生。

    这个技术很聪明。但它之所以能被公开讨论,说明一流实验室的 RL 训练 loop 已经在扩散

    3 年前,"谁家 RL 怎么做的"是严格保密。今天 Dwarkesh 这种独立播客能把一线研究员的口述写出来,说明这个领域的保密正在松。OpenAI 和 Anthropic 的内部 ML 工程师,每年流动率 20%+。他们走的时候带不走权重,但带得走方法论。

    跑步机上的前沿实验室

    那么真正的壁垒是什么

    把这 5 条信号拼起来,结论清晰:模型参数会贬值、训练过程会扩散、蒸馏无法被防住

    那前沿实验室到底靠什么维持领先?

    我的判断:。更具体地说——能在一个主题上保持专注的人数 × 时间

    Anthropic 为什么今天还领先?不是 Claude 4.7 的参数或 transformer 架构有什么秘方。是他们有 X 个顶级 ML 研究员,连续 3 年每天在 post-training 上干 10+ 小时。当知识扩散以"公开论文 + 员工流动 + 蒸馏"三条通路开着的时候,壁垒只能靠下一个问题上你比别人快多久

    这个壁垒是永远会往前推的,但永远不会静止。像你在跑步机上跑 — 你慢下来,对手就追上。Sam Altman 在 podcast 上说"scaling laws 还没到头"的时候,他不是在说科学事实,他是在说"我有资源让我的人继续在这条路上专注多跑一年"

    对一线工程师的意义

    把这个观察拉回到个人尺度,有两个推论:

    推论一:你掌握了一个 SOTA 技术这件事,保鲜期从 18 个月缩到 3-6 个月

    3 年前你会 RLHF,是 ML 工程师里的稀缺能力,能跳槽加 50%。今天 RLHF 有公开教程、有 RLHF Book(Nathan Lambert 那本,5 月出版),有开源实现。会 RLHF 只是门槛,不是护城河

    护城河是你能多快学会下一个

    推论二:你作为下游 agent 工程师,其实在做"反向蒸馏",这是价值最高的岗位

    如果你在用 Claude、GPT 做企业 agent,你每天接触的是"模型生成初稿 → 用户修正 → 最终可用"的完整流程。你手里的数据是有对齐信号的业务数据。这份数据的价值远超模型参数本身。

    我建议做 agent 的团队,从第一天开始做三件事:

    1. 系统性记录 diff。每一次用户编辑、每一次人工覆盖,都存下来。
    2. 按 domain 结构化。不是一锅粥存,是按行业、任务类型、难度分层。
    3. 保留可追溯性。知道哪个 diff 是谁在什么场景下产生的。
    4. 三年后,当开源模型追上闭源的 90% 能力,真正值钱的不是"谁有 Claude 的权重",是"谁有跟 Claude 对齐过的行业数据"

      我自己的做法

      我们平台从去年开始搭一个叫"correction stream"的内部数据管道,把所有客户的编辑动作打标签存下来。不是为了转卖。是为了当某一天我们决定自研或 fine-tune 一个开源模型的时候,我有弹药。

      有人问我:"Claude 都能帮你做到 90% 了,你为什么还要留这条后路?"

      答案就在 Dwarkesh 这期笔记里。我不是怕 Claude 变差,我是怕有一天 Claude 的分发权不在我手里。当那一天来临——TAC、API 涨价、地缘限制、商业条款变化——我需要能在两周内切换到一个"我自己对齐过的"开源模型。

      这条后路的建设成本不高。不建的代价可能是命。


      一个思考题:如果你是一家企业 AI 服务商,你今天收集到的客户 diff 数据,未来归谁?客户 own 它?你 own 它?还是无主资产?这个法律和伦理问题目前没有清晰答案,但它在未来 2-3 年会变成整个行业的核心争议。

      参考资料

      • Dwarkesh Patel, What I learned this week — Pretraining parallelisms, Can distillation be stopped, Mythos and the cybersecurity equilibrium, Pipeline RL, On why pretraining runs fail. Dwarkesh.com, 2026-04-15.
      • Horace He 的并行训练分析(Dwarkesh 笔记引用)
      • Nathan Lambert, RLHF Book, Manning, 2026-05(pre-order on Amazon).