Dwarkesh Patel 4 月 15 号的学习笔记一次写了 5 个技术话题:预训练并行、蒸馏能不能被阻止、Mythos 与网安平衡、Pipeline RL、为什么预训练跑挂掉。每一条都很硬核,单独拿出来都能写一篇。
但我读完的第一感受不是"学到了",是不安。
这 5 件事合在一起,描绘的是一幅同一个图:前沿实验室的壁垒叙事正在被逐条凿穿。不是一夜崩塌,是一点点漏气。
Anthropic、OpenAI、Google DeepMind 这些公司的估值、人才吸引力、甚至它们的叙述能力,都建立在三个假设上:
这三条一条不塌,估值就能撑住。全塌,估值减半。
Dwarkesh 这期笔记每一条都是在说"这三条正在松"。
这是最直接的。Dwarkesh 算了一笔账:用 API 调用蒸馏出一个 Opus 4.6 级别的模型,大约需要 2500 万美金。
听到这个数字第一反应是"好多"。算第二遍你就知道不是。
字节一年研发投入 1200+ 亿。Meta 2026 年 AI 基础设施支出几百亿美金。阿里、腾讯、Google(对,Google 也会蒸馏自己买不到的友商模型)任何一家,2500 万都是预算里的一个零头。
Dwarkesh 还点出了一个更狠的:"chain-of-thought 藏不住"。前沿实验室一直在尝试把 thinking tokens 和最终 response 分开,只给你结果。但 thinking tokens 本质上就是 tokens,你用 RLVR(reinforcement learning from verifiable rewards)类方法,可以强制模型复构思考过程。加上 agentic 工作流里,模型的 tool use(执行 bash、写 code、调用 API)全部发生在用户自己的设备上 — 你怎么藏?
"藏"这条路堵了。
这是 Dwarkesh 埋的一个非常尖锐的点。他的原话大概是:一个做产品的公司,可以通过收集用户对模型输出的最终选择("the gold diff"),反向构造出一份极高质量的对齐数据。
我看到这句话的时候愣了一下。因为我正在做的事情,就是这个。
讲具体一点。我做的企业 AI 平台,核心功能是给各行业客户跑 agent。客户提一个问题,agent 调 Claude / GPT / Qwen 给出初稿,客户编辑修改,生成最终可用的版本。这中间客户的编辑动作(diff)就是黄金数据 — 它告诉我"模型给出的第一版是 X,但对这个客户、这个行业、这个场景真正需要的是 Y"。
这份数据的价值,我以前没想清楚。我以为它主要是给我自己做产品迭代用的。Dwarkesh 的视角把我点醒了:这份数据可以直接用来 RL 训一个专用模型,而且质量比任何公开数据集都高,因为它是真实工作场景下由最终用户验证过的答案。
上下游的关系在反转。过去是"前沿实验室训模型,下游公司拿来用"。现在是"下游公司用的过程本身就是在训模型"。上游控制不了这个过程。
我敢说,今天 Claude 的企业客户里,至少有 20% 已经在做类似的事。Anthropic 知道,但它能做的只有在 ToS 里写禁止用输出训练模型 — 这条在中国、在大部分国家,执行力约等于零。
这个点和蒸馏关系没那么直接,但它戳破的是"训练壁垒"这个神话。
Dwarkesh 记录的几个失败模式非常有意思:
这些不是学术界推演出来的失败模式,是一线实验室踩坑踩出来的。把它们公开讨论出来,意味着下一家想训大模型的公司可以跳过这些坑。壁垒从"我会做,你不会"变成"我踩过这些坑,你可以绕开"。
Dwarkesh 最后一句很冷静:"我怀疑新的失败模式会随 scale 持续涌现,不会收敛到 5 个可解问题。" 意思是——对,知识会扩散,但规模上升也会带来新问题。壁垒不是消失,是被向前推了半步。
Mythos 是"AI 把 5 个漏洞组合成完整攻击链"的能力。Anthropic 发现它,并把它当作一个治理信号:AI 的攻防非对称性在扩大。
Dwarkesh 的观察很尖锐:"我不懂为什么 Anthropic 不直接训一个 cyber-use 分类器。" 他自问自答:因为这种分类器对有专业知识的人"很容易 evade"。把攻击拆成看起来良性的子任务 — LLM 防不住。
这句话的真正含义是:安全壁垒是假的。你要么不给这个能力,要么给了就挡不住有心人。
OpenAI 这周推 GPT-5.4-Cyber(我另一篇文章写过)正是认了这个现实 — 风险管理从"模型能不能做"转到"我允不允许你做"。但这是商业应对,不是技术壁垒。
Pipeline RL 的核心思想:RL rollout 时长短不一,GPU stragglers 严重。方案是"in-flight weight updates"—模型生成到一半就换成最新版本的权重继续生。
这个技术很聪明。但它之所以能被公开讨论,说明一流实验室的 RL 训练 loop 已经在扩散。
3 年前,"谁家 RL 怎么做的"是严格保密。今天 Dwarkesh 这种独立播客能把一线研究员的口述写出来,说明这个领域的保密正在松。OpenAI 和 Anthropic 的内部 ML 工程师,每年流动率 20%+。他们走的时候带不走权重,但带得走方法论。
把这 5 条信号拼起来,结论清晰:模型参数会贬值、训练过程会扩散、蒸馏无法被防住。
那前沿实验室到底靠什么维持领先?
我的判断:人。更具体地说——能在一个主题上保持专注的人数 × 时间。
Anthropic 为什么今天还领先?不是 Claude 4.7 的参数或 transformer 架构有什么秘方。是他们有 X 个顶级 ML 研究员,连续 3 年每天在 post-training 上干 10+ 小时。当知识扩散以"公开论文 + 员工流动 + 蒸馏"三条通路开着的时候,壁垒只能靠下一个问题上你比别人快多久。
这个壁垒是永远会往前推的,但永远不会静止。像你在跑步机上跑 — 你慢下来,对手就追上。Sam Altman 在 podcast 上说"scaling laws 还没到头"的时候,他不是在说科学事实,他是在说"我有资源让我的人继续在这条路上专注多跑一年"。
把这个观察拉回到个人尺度,有两个推论:
推论一:你掌握了一个 SOTA 技术这件事,保鲜期从 18 个月缩到 3-6 个月。
3 年前你会 RLHF,是 ML 工程师里的稀缺能力,能跳槽加 50%。今天 RLHF 有公开教程、有 RLHF Book(Nathan Lambert 那本,5 月出版),有开源实现。会 RLHF 只是门槛,不是护城河。
护城河是你能多快学会下一个。
推论二:你作为下游 agent 工程师,其实在做"反向蒸馏",这是价值最高的岗位。
如果你在用 Claude、GPT 做企业 agent,你每天接触的是"模型生成初稿 → 用户修正 → 最终可用"的完整流程。你手里的数据是有对齐信号的业务数据。这份数据的价值远超模型参数本身。
我建议做 agent 的团队,从第一天开始做三件事:
三年后,当开源模型追上闭源的 90% 能力,真正值钱的不是"谁有 Claude 的权重",是"谁有跟 Claude 对齐过的行业数据"。
我们平台从去年开始搭一个叫"correction stream"的内部数据管道,把所有客户的编辑动作打标签存下来。不是为了转卖。是为了当某一天我们决定自研或 fine-tune 一个开源模型的时候,我有弹药。
有人问我:"Claude 都能帮你做到 90% 了,你为什么还要留这条后路?"
答案就在 Dwarkesh 这期笔记里。我不是怕 Claude 变差,我是怕有一天 Claude 的分发权不在我手里。当那一天来临——TAC、API 涨价、地缘限制、商业条款变化——我需要能在两周内切换到一个"我自己对齐过的"开源模型。
这条后路的建设成本不高。不建的代价可能是命。
一个思考题:如果你是一家企业 AI 服务商,你今天收集到的客户 diff 数据,未来归谁?客户 own 它?你 own 它?还是无主资产?这个法律和伦理问题目前没有清晰答案,但它在未来 2-3 年会变成整个行业的核心争议。
参考资料: