对齐一个我们没拆开的脑子

在 AlignmentForum 上翻到一篇研究自述，作者全职做 AI 对齐三年多。

我以为又是 RLHF、可解释性、scalable oversight 那一套。

往下读，他说他从 2004 年就在想这件事。

那年还没有 GPT，没有 Transformer，连"对齐"这个词在这圈子里都还没成型。一个人那时候坐在那儿琢磨"如果有一天真造出一个像大脑一样的 AGI，我们怎么让它别失控"——这画面我盯了一会儿。二十年。他押的是一个到今天都还很冷门的赌：第一个真正变革性的 AI，可能不是 Transformer 的某个放大版，而是一个仿照人脑机制造出来的东西。

这个赌注一旦成立，主流对齐研究的大半套路就得重新想。

大家都在外面敲那个盒子

现在做对齐的主流路子，说穿了都是从外面对付一个黑箱。

RLHF 是拿人的偏好去训模型的行为——你输出讨人喜欢的答案我给你加分，输出危险的我扣分。它不关心模型脑子里到底在想什么，它只管行为。可解释性（mechanistic interpretability）算是最想往里看的了，拿显微镜去照神经网络的权重，想找出"这一簇神经元是不是在表示'欺骗'这个概念"。scalable oversight 则是另一个思路——模型比人聪明了人看不懂它在干嘛怎么办，那就让 AI 帮人监督 AI。

三条路差别很大，但有个共同的姿势：把 AI 当成一个已经造出来、摆在面前的东西，然后想办法从外部行为去管它。

先有箱子，再研究怎么对付箱子。

这位研究者反过来。他不等箱子造出来。他想在箱子还没成型之前，先搞清楚这一类箱子——类脑的系统——是怎么从内部长出"想要"这件事的。

一个动机是怎么长出来的

人脑怎么产生动机、价值、欲望，这是认知神经科学到今天都没完全啃下来的问题。

你饿了想吃东西，这个"想"在脑子里是一串什么样的电化学过程？你看到一个人莫名其妙就信任他，这个信任是哪几块脑区在协作？你昨天还觉得某件事无所谓，今天突然就在乎了——一个价值，是怎么在脑子里被改写的？再往深一层——你为什么会有"自我"这个东西，会觉得有个"我"在体验这一切？

没人能完整回答。我们知道一些零件。多巴胺跟奖励预测有关，前额叶跟规划和抑制有关，杏仁核跟恐惧有关。这些都对，也都是真的。但从这些零件，到一个完整的、有欲望有价值观有自我、半夜会为一个决定翻来覆去的人，中间那一大段是怎么接起来的——这是认知神经科学的核心难题，啃了一个多世纪，悬而未决。

最诚实的说法是：我们有一堆零件的说明书，没有那张总装图。

这位研究者的纲领，就建在这块还没填平的地基上。

他用计算认知神经科学（computational cognitive neuroscience，把大脑的认知机制写成可计算的模型）去研究：一个类脑系统，是按什么机制形成它的目标和价值的。如果你能在机制层面理解这件事，你就能在第一个类脑 AGI 真造出来之前，提前预测它会"想要"什么、它的价值会怎么长出来——然后提前为它的对齐做准备。

不是等它出来再对付它。是预测它，赶在它前面。

这个野心很大。大到有点不真实。

黑箱对黑箱

我喜欢这个视角，是因为它把一个被主流对齐绕过去的尴尬，直接顶到了脸上。

我们想对齐一个仿照大脑造出来的东西。可大脑本身，就是一个我们没拆开过的黑箱。

人类研究自己的脑子研究了多少年了，到现在连"动机怎么产生"都没有共识。你去问十个神经科学家"自由意志存不存在""价值观在脑子里是怎么编码的"，能得到十一种答案。我们对人脑的理解，远没到能写成一套干净机制的程度——很多地方还停在"这块区域好像跟这件事相关"这种相关性描述上，离因果机制差得远。

那现在的处境就有点怪了——

如果第一个变革性 AI 真是类脑的，那我们等于是在对齐一个我们假设了结构、却从没验证过那个结构的东西。我们连参照物（人脑）都没搞懂，却想去对齐它的仿制品。

这是黑箱在对齐黑箱。

主流那三条路至少诚实地承认了"我们不懂里面"，所以从外部行为下手。这位研究者更激进——他说我要懂里面，我要在机制层面把"想要"这件事讲清楚。可他要懂的那个"里面"，是人类自己折腾了一个多世纪都没讲清楚的东西。

我不确定这条路走不走得通。说实话我倾向于它走不通——至少不会在第一个 AGI 出现之前走通。认知神经科学的进度，跟 AI 能力的进度，根本不在一个时间尺度上。前者按几十年算，后者现在按月算。指望前者赶在后者前面把人脑机制搞清楚，这赌注下得太大了。

但他可能戳中了一个真盲点

话虽这么说，我没法把这个视角直接扔了。

因为它指出的那个盲点是真的。

主流对齐有一个没怎么被检验的前提：方法跟架构无关。无论第一个 AGI 长什么样，RLHF 也好、可解释性也好，总归用得上。可这个前提，凭什么成立？

可解释性这套工具，是为 Transformer 量身长出来的——它研究的是注意力头、是残差流、是 Transformer 那套特定结构里的特征。要是第一个变革性 AI 压根不是 Transformer，是一个类脑的、机制完全不同的东西呢？那一整套显微镜，照的可能是错的器官。

这就是这个冷门视角真正的份量所在。它不是在说"我的方法比 RLHF 好"。它在说一件更让人不安的事：你们所有的方法，可能都默认了一个你们没验证过的架构。

我们在对齐一个我们假设了结构、却没验证过结构的东西——这句话，对主流和对他自己，是同时成立的。区别只在于，主流没把这句话说出口，他说了。

我也不确定

所以我对这篇研究自述的判断是分裂的。

作为一个押注方向，我觉得它大概率不会成为主流。它太依赖一个进展极慢的学科，赌的又是一个没人能确认的前提（第一个 AGI 是类脑的）。三年多全职投进去，赌的是这个——我佩服这个胆量，但我不会跟着押。

可作为一面镜子，它照出来的东西很扎实。它让我重新看主流对齐的时候，多了一个问号：我们这么自信能对齐 AGI，是不是因为我们悄悄假设了它会长成我们已经会处理的那个样子？

二十年前那个坐在那儿想"类脑 AGI 怎么对齐"的人，到现在也没等到他赌的那个东西出现。也许永远等不到。也许某一天它突然就出现了，而那时候我们手里这套为 Transformer 磨的工具，一件都用不上。

我不知道是哪种。