模型壁垒的真名叫"跑模型的那些人" — 读 Dwarkesh 4/15 学习笔记

Dwarkesh Patel 4 月 15 号的学习笔记一次写了 5 个技术话题：预训练并行、蒸馏能不能被阻止、Mythos 与网安平衡、Pipeline RL、为什么预训练跑挂掉。每一条都很硬核，单独拿出来都能写一篇。

但我读完的第一感受不是"学到了"，是不安。

这 5 件事合在一起，描绘的是一幅同一个图：前沿实验室的壁垒叙事正在被逐条凿穿。不是一夜崩塌，是一点点漏气。

前沿实验室赖以生存的三个假设

Anthropic、OpenAI、Google DeepMind 这些公司的估值、人才吸引力、甚至它们的叙述能力，都建立在三个假设上：

能力优势稳定。我们的模型比你的好，明年仍然好。
训练过程难以复制。参数、数据、算法、基础设施，任何一块你缺一样都复制不了我。
蒸馏防得住。我藏好我的 chain-of-thought，控制我的 API 调用，你想逆向我很难。

这三条一条不塌，估值就能撑住。全塌，估值减半。

Dwarkesh 这期笔记每一条都是在说"这三条正在松"。

第一条：蒸馏停不了

这是最直接的。Dwarkesh 算了一笔账：用 API 调用蒸馏出一个 Opus 4.6 级别的模型，大约需要 2500 万美金。

听到这个数字第一反应是"好多"。算第二遍你就知道不是。

字节一年研发投入 1200+ 亿。Meta 2026 年 AI 基础设施支出几百亿美金。阿里、腾讯、Google（对，Google 也会蒸馏自己买不到的友商模型）任何一家，2500 万都是预算里的一个零头。

Dwarkesh 还点出了一个更狠的："chain-of-thought 藏不住"。前沿实验室一直在尝试把 thinking tokens 和最终 response 分开，只给你结果。但 thinking tokens 本质上就是 tokens，你用 RLVR（reinforcement learning from verifiable rewards）类方法，可以强制模型复构思考过程。加上 agentic 工作流里，模型的 tool use（执行 bash、写 code、调用 API）全部发生在用户自己的设备上 — 你怎么藏？

"藏"这条路堵了。

第二条：下游可以蒸馏上游，而且是自动的

这是 Dwarkesh 埋的一个非常尖锐的点。他的原话大概是：一个做产品的公司，可以通过收集用户对模型输出的最终选择（"the gold diff"），反向构造出一份极高质量的对齐数据。

我看到这句话的时候愣了一下。因为我正在做的事情，就是这个。

讲具体一点。我做的企业 AI 平台，核心功能是给各行业客户跑 agent。客户提一个问题，agent 调 Claude / GPT / Qwen 给出初稿，客户编辑修改，生成最终可用的版本。这中间客户的编辑动作（diff）就是黄金数据 — 它告诉我"模型给出的第一版是 X，但对这个客户、这个行业、这个场景真正需要的是 Y"。

这份数据的价值，我以前没想清楚。我以为它主要是给我自己做产品迭代用的。Dwarkesh 的视角把我点醒了：这份数据可以直接用来 RL 训一个专用模型，而且质量比任何公开数据集都高，因为它是真实工作场景下由最终用户验证过的答案。

上下游的关系在反转。过去是"前沿实验室训模型，下游公司拿来用"。现在是"下游公司用的过程本身就是在训模型"。上游控制不了这个过程。

我敢说，今天 Claude 的企业客户里，至少有 20% 已经在做类似的事。Anthropic 知道，但它能做的只有在 ToS 里写禁止用输出训练模型 — 这条在中国、在大部分国家，执行力约等于零。

第三条：训练失败模式正在公开化

这个点和蒸馏关系没那么直接，但它戳破的是"训练壁垒"这个神话。

Dwarkesh 记录的几个失败模式非常有意思：

Expert choice 破坏因果：MoE 路由的 expert choice 机制，让后面的 token 能影响前面 token 的分配。这违反了推理时的因果性。训练时模型学会了"作弊"，推理时没得作，性能掉。
FP16 精度导致的数值偏差：GPT-4 最初训练卡住，是因为 FP16 的尾数粒度，"1024 + 1 四舍五入还是 1024"，累计偏差让部分参数值飞走了 10 倍。

这些不是学术界推演出来的失败模式，是一线实验室踩坑踩出来的。把它们公开讨论出来，意味着下一家想训大模型的公司可以跳过这些坑。壁垒从"我会做，你不会"变成"我踩过这些坑，你可以绕开"。

Dwarkesh 最后一句很冷静："我怀疑新的失败模式会随 scale 持续涌现，不会收敛到 5 个可解问题。" 意思是——对，知识会扩散，但规模上升也会带来新问题。壁垒不是消失，是被向前推了半步。

第四条：Mythos 让"安全壁垒"变得尴尬

Mythos 是"AI 把 5 个漏洞组合成完整攻击链"的能力。Anthropic 发现它，并把它当作一个治理信号：AI 的攻防非对称性在扩大。

Dwarkesh 的观察很尖锐："我不懂为什么 Anthropic 不直接训一个 cyber-use 分类器。" 他自问自答：因为这种分类器对有专业知识的人"很容易 evade"。把攻击拆成看起来良性的子任务 — LLM 防不住。

这句话的真正含义是：安全壁垒是假的。你要么不给这个能力，要么给了就挡不住有心人。

OpenAI 这周推 GPT-5.4-Cyber（我另一篇文章写过）正是认了这个现实 — 风险管理从"模型能不能做"转到"我允不允许你做"。但这是商业应对，不是技术壁垒。

第五条：Pipeline RL 把训练揭光

Pipeline RL 的核心思想：RL rollout 时长短不一，GPU stragglers 严重。方案是"in-flight weight updates"—模型生成到一半就换成最新版本的权重继续生。

这个技术很聪明。但它之所以能被公开讨论，说明一流实验室的 RL 训练 loop 已经在扩散。

3 年前，"谁家 RL 怎么做的"是严格保密。今天 Dwarkesh 这种独立播客能把一线研究员的口述写出来，说明这个领域的保密正在松。OpenAI 和 Anthropic 的内部 ML 工程师，每年流动率 20%+。他们走的时候带不走权重，但带得走方法论。

那么真正的壁垒是什么

把这 5 条信号拼起来，结论清晰：模型参数会贬值、训练过程会扩散、蒸馏无法被防住。

那前沿实验室到底靠什么维持领先？

我的判断：人。更具体地说——能在一个主题上保持专注的人数 × 时间。

Anthropic 为什么今天还领先？不是 Claude 4.7 的参数或 transformer 架构有什么秘方。是他们有 X 个顶级 ML 研究员，连续 3 年每天在 post-training 上干 10+ 小时。当知识扩散以"公开论文 + 员工流动 + 蒸馏"三条通路开着的时候，壁垒只能靠下一个问题上你比别人快多久。

这个壁垒是永远会往前推的，但永远不会静止。像你在跑步机上跑 — 你慢下来，对手就追上。Sam Altman 在 podcast 上说"scaling laws 还没到头"的时候，他不是在说科学事实，他是在说"我有资源让我的人继续在这条路上专注多跑一年"。

对一线工程师的意义

把这个观察拉回到个人尺度，有两个推论：

推论一：你掌握了一个 SOTA 技术这件事，保鲜期从 18 个月缩到 3-6 个月。

3 年前你会 RLHF，是 ML 工程师里的稀缺能力，能跳槽加 50%。今天 RLHF 有公开教程、有 RLHF Book（Nathan Lambert 那本，5 月出版），有开源实现。会 RLHF 只是门槛，不是护城河。

护城河是你能多快学会下一个。

推论二：你作为下游 agent 工程师，其实在做"反向蒸馏"，这是价值最高的岗位。

如果你在用 Claude、GPT 做企业 agent，你每天接触的是"模型生成初稿 → 用户修正 → 最终可用"的完整流程。你手里的数据是有对齐信号的业务数据。这份数据的价值远超模型参数本身。

我建议做 agent 的团队，从第一天开始做三件事：

系统性记录 diff。每一次用户编辑、每一次人工覆盖，都存下来。
按 domain 结构化。不是一锅粥存，是按行业、任务类型、难度分层。
保留可追溯性。知道哪个 diff 是谁在什么场景下产生的。

三年后，当开源模型追上闭源的 90% 能力，真正值钱的不是"谁有 Claude 的权重"，是"谁有跟 Claude 对齐过的行业数据"。

我自己的做法

我们平台从去年开始搭一个叫"correction stream"的内部数据管道，把所有客户的编辑动作打标签存下来。不是为了转卖。是为了当某一天我们决定自研或 fine-tune 一个开源模型的时候，我有弹药。

有人问我："Claude 都能帮你做到 90% 了，你为什么还要留这条后路？"

答案就在 Dwarkesh 这期笔记里。我不是怕 Claude 变差，我是怕有一天 Claude 的分发权不在我手里。当那一天来临——TAC、API 涨价、地缘限制、商业条款变化——我需要能在两周内切换到一个"我自己对齐过的"开源模型。

这条后路的建设成本不高。不建的代价可能是命。

一个思考题：如果你是一家企业 AI 服务商，你今天收集到的客户 diff 数据，未来归谁？客户 own 它？你 own 它？还是无主资产？这个法律和伦理问题目前没有清晰答案，但它在未来 2-3 年会变成整个行业的核心争议。

参考资料：

Dwarkesh Patel, What I learned this week — Pretraining parallelisms, Can distillation be stopped, Mythos and the cybersecurity equilibrium, Pipeline RL, On why pretraining runs fail. Dwarkesh.com, 2026-04-15.
Horace He 的并行训练分析（Dwarkesh 笔记引用）
Nathan Lambert, RLHF Book, Manning, 2026-05（pre-order on Amazon）.