返回博客

对齐一个我们没拆开的脑子

AI对齐认知神经科学AGIalignment

在 AlignmentForum 上翻到一篇研究自述,作者全职做 AI 对齐三年多。

我以为又是 RLHF、可解释性、scalable oversight 那一套。

往下读,他说他从 2004 年就在想这件事。

那年还没有 GPT,没有 Transformer,连"对齐"这个词在这圈子里都还没成型。一个人那时候坐在那儿琢磨"如果有一天真造出一个像大脑一样的 AGI,我们怎么让它别失控"——这画面我盯了一会儿。二十年。他押的是一个到今天都还很冷门的赌:第一个真正变革性的 AI,可能不是 Transformer 的某个放大版,而是一个仿照人脑机制造出来的东西。

这个赌注一旦成立,主流对齐研究的大半套路就得重新想。

一半人脑解剖、一半神经网络节点的木刻对照

大家都在外面敲那个盒子

现在做对齐的主流路子,说穿了都是从外面对付一个黑箱。

RLHF 是拿人的偏好去训模型的行为——你输出讨人喜欢的答案我给你加分,输出危险的我扣分。它不关心模型脑子里到底在想什么,它只管行为。可解释性(mechanistic interpretability)算是最想往里看的了,拿显微镜去照神经网络的权重,想找出"这一簇神经元是不是在表示'欺骗'这个概念"。scalable oversight 则是另一个思路——模型比人聪明了人看不懂它在干嘛怎么办,那就让 AI 帮人监督 AI。

三条路差别很大,但有个共同的姿势:把 AI 当成一个已经造出来、摆在面前的东西,然后想办法从外部行为去管它。

先有箱子,再研究怎么对付箱子。

这位研究者反过来。他不等箱子造出来。他想在箱子还没成型之前,先搞清楚这一类箱子——类脑的系统——是怎么从内部长出"想要"这件事的。

一个动机是怎么长出来的

人脑怎么产生动机、价值、欲望,这是认知神经科学到今天都没完全啃下来的问题。

你饿了想吃东西,这个"想"在脑子里是一串什么样的电化学过程?你看到一个人莫名其妙就信任他,这个信任是哪几块脑区在协作?你昨天还觉得某件事无所谓,今天突然就在乎了——一个价值,是怎么在脑子里被改写的?再往深一层——你为什么会有"自我"这个东西,会觉得有个"我"在体验这一切?

没人能完整回答。我们知道一些零件。多巴胺跟奖励预测有关,前额叶跟规划和抑制有关,杏仁核跟恐惧有关。这些都对,也都是真的。但从这些零件,到一个完整的、有欲望有价值观有自我、半夜会为一个决定翻来覆去的人,中间那一大段是怎么接起来的——这是认知神经科学的核心难题,啃了一个多世纪,悬而未决。

最诚实的说法是:我们有一堆零件的说明书,没有那张总装图。

一个被剖开的大脑里长出价值与目标的根系

这位研究者的纲领,就建在这块还没填平的地基上。

他用计算认知神经科学(computational cognitive neuroscience,把大脑的认知机制写成可计算的模型)去研究:一个类脑系统,是按什么机制形成它的目标和价值的。如果你能在机制层面理解这件事,你就能在第一个类脑 AGI 真造出来之前,提前预测它会"想要"什么、它的价值会怎么长出来——然后提前为它的对齐做准备。

不是等它出来再对付它。是预测它,赶在它前面。

这个野心很大。大到有点不真实。

黑箱对黑箱

我喜欢这个视角,是因为它把一个被主流对齐绕过去的尴尬,直接顶到了脸上。

我们想对齐一个仿照大脑造出来的东西。可大脑本身,就是一个我们没拆开过的黑箱。

人类研究自己的脑子研究了多少年了,到现在连"动机怎么产生"都没有共识。你去问十个神经科学家"自由意志存不存在""价值观在脑子里是怎么编码的",能得到十一种答案。我们对人脑的理解,远没到能写成一套干净机制的程度——很多地方还停在"这块区域好像跟这件事相关"这种相关性描述上,离因果机制差得远。

那现在的处境就有点怪了——

如果第一个变革性 AI 真是类脑的,那我们等于是在对齐一个我们假设了结构、却从没验证过那个结构的东西。我们连参照物(人脑)都没搞懂,却想去对齐它的仿制品。

这是黑箱在对齐黑箱。

主流那三条路至少诚实地承认了"我们不懂里面",所以从外部行为下手。这位研究者更激进——他说我要懂里面,我要在机制层面把"想要"这件事讲清楚。可他要懂的那个"里面",是人类自己折腾了一个多世纪都没讲清楚的东西。

我不确定这条路走不走得通。说实话我倾向于它走不通——至少不会在第一个 AGI 出现之前走通。认知神经科学的进度,跟 AI 能力的进度,根本不在一个时间尺度上。前者按几十年算,后者现在按月算。指望前者赶在后者前面把人脑机制搞清楚,这赌注下得太大了。

但他可能戳中了一个真盲点

话虽这么说,我没法把这个视角直接扔了。

因为它指出的那个盲点是真的。

主流对齐有一个没怎么被检验的前提:方法跟架构无关。无论第一个 AGI 长什么样,RLHF 也好、可解释性也好,总归用得上。可这个前提,凭什么成立?

可解释性这套工具,是为 Transformer 量身长出来的——它研究的是注意力头、是残差流、是 Transformer 那套特定结构里的特征。要是第一个变革性 AI 压根不是 Transformer,是一个类脑的、机制完全不同的东西呢?那一整套显微镜,照的可能是错的器官。

这就是这个冷门视角真正的份量所在。它不是在说"我的方法比 RLHF 好"。它在说一件更让人不安的事:你们所有的方法,可能都默认了一个你们没验证过的架构。

我们在对齐一个我们假设了结构、却没验证过结构的东西——这句话,对主流和对他自己,是同时成立的。区别只在于,主流没把这句话说出口,他说了。

我也不确定

所以我对这篇研究自述的判断是分裂的。

作为一个押注方向,我觉得它大概率不会成为主流。它太依赖一个进展极慢的学科,赌的又是一个没人能确认的前提(第一个 AGI 是类脑的)。三年多全职投进去,赌的是这个——我佩服这个胆量,但我不会跟着押。

可作为一面镜子,它照出来的东西很扎实。它让我重新看主流对齐的时候,多了一个问号:我们这么自信能对齐 AGI,是不是因为我们悄悄假设了它会长成我们已经会处理的那个样子?

二十年前那个坐在那儿想"类脑 AGI 怎么对齐"的人,到现在也没等到他赌的那个东西出现。也许永远等不到。也许某一天它突然就出现了,而那时候我们手里这套为 Transformer 磨的工具,一件都用不上。

我不知道是哪种。