返回博客

Noetik 的反直觉赌注:95% 失败的肿瘤药不是药不行,是配对错了

生物AINoetik癌症治疗Transformer精准医疗
hero

一个被掩盖的医药业真相

我上周听了一期 Latent Space 的访谈,嘉宾是 Noetik 的联合创始人 Ron Alfa 和 Daniel Bear。他们在做一件极其反直觉的事——

他们认为:过去几十年在临床试验里失败的那些癌症药,大部分其实是好药。错的不是药,是给错了病人

听到这句话我停了一下。

现代肿瘤学的基本假设是:药物研发失败率 95% 左右。也就是说,进入临床试验的 20 个候选药,19 个会被枪毙。主流解释是——大部分药物无效或毒性过大。

Noetik 说:这个解释里有一个系统性的误读

很多"失败"的药,在某一类病人身上其实有效。但临床试验的入组标准是粗糙的——以癌症类型分组,顶多再加一两个生物标记物。真正在肿瘤里起决定作用的,是复杂得多的分子环境:空间转录组、空间蛋白组、基因突变、免疫细胞分布。

这些维度之间的组合爆炸,让"找对病人"变得几乎不可能。所以药本来能救 5% 的人,但试验招进来的 500 个病人里只有 10 个是那 5%。整体有效率看起来只有 2%,FDA 否决,药物档案柜落灰。

这是生物医药史上最昂贵的一种"假阴性"

Noetik 怎么做

Ron 和 Daniel 花了将近两年搭一个数据集。

他们收集了数千份真实人体肿瘤样本,配上四种模态的数据:空间转录组(哪些基因在肿瘤里的哪个位置表达)、空间蛋白组(哪些蛋白在哪里)、H&E 染色图像(病理医生标准看的切片)、全外显子测序(基因突变谱)。

总共数亿张图像,加上对应的转录组和蛋白组地图。这可能是世界上最大的单一肿瘤多模态数据集。

然后他们训练了一个叫 TARIO-2 的自回归 Transformer。

这个模型做一件事:只给它一张标准 H&E 染色图像(每个癌症病人都已经有的),它能预测出大约 19000 个基因在空间上的表达图

这是什么意思?传统做法下,你要知道肿瘤里每个基因的空间表达,需要做空间转录组测序——一次几千到几万美元,医院根本负担不起。结果就是这个数据只存在于研究实验室,不存在于临床。

TARIO-2 把这个"必须昂贵测序才能得到的地图"变成了"从一张常规病理切片就能预测出来"。让原本属于顶级研究的分辨率,变成全球任何一个医院都能获取的能力

有了这张预测出来的高分辨率基因图,你就能做一件核心的事——用虚拟细胞模拟药物反应

模型学了虚拟细胞之后,可以对一个存档的、临床试验失败的药物,模拟它对不同肿瘤亚型的反应。找到那些真正能响应这个药的病人类型。

img-01

这不是 AlphaFold 的那条路

这里我要插一段。

过去五年生物 AI 圈最火的叙事是 AlphaFold——用 AI 预测蛋白质结构。Isomorphic Labs、Insilico、Recursion 这些公司大体走的都是这条路:预测分子结构 → 设计新药 → 进入临床。

Noetik 走了一条完全不同的路。它不做新药。它做老药的重新匹配

为什么这个路线在商业上可能更优?

一,数据量相对大。过去几十年 FDA 档案里躺着几千个临床试验失败但安全性通过的药物。这些药的毒性、代谢、剂量数据都是齐的。只需要找对病人。

二,临床路径短。一个从未上过人的新药,需要 10 年 +、20 亿美元走完三期。一个已经过了安全性的老药找对病人重启试验,可能 3 年就能到市场。

三,收益结构好。Noetik 不需要自己成为大药厂。他们和 GSK 刚签了 5000 万美元的长期授权合同——把自己的虚拟细胞平台租给药厂用。每家药厂都有一堆失败药想要"重生",Noetik 是那个救命药匣子。

这条路过去不是没人想过。只是过去没有足够好的模型架构和数据规模能把它做通。Transformer + 大规模多模态预训练,让这件事从 2024 年开始变得真正可能。

Arthur 的判断:这是一个商业模式的启示

我不是生物背景,我是做 AI Agent 的。但我看这个案例,看到的是一个可以被迁移到很多行业的商业模式

核心结构是:

存量资产 × 被忽略的失败 × 配对颗粒度

解释一下。

存量资产:过去几十年因为某种原因被搁置/失败/浪费的东西。在药行业是临床失败的药。在其他行业,类似的存量随处可见。

被忽略的失败:这些失败没有被系统性分析过"为什么失败"。大家笼统地说"药不行"、"项目不靠谱"、"团队不行"。真相往往更细——失败是因为匹配错了,不是因为本身没价值。

配对颗粒度:之前的技术只能做粗糙匹配,所以失败看起来是真的。AI + 多模态数据让匹配的细腻度提升一个量级,原来看起来无价值的东西显露出价值。

把这个框架套到其他行业。

教育。过去十年的 MOOC 和在线课程,完课率普遍低于 5%。主流解释是"人没有自律"。但如果一个 AI 系统能根据每个学生的认知风格、时间分布、前置知识,匹配到最合适的课程切片呢?那些被判定为"学生不行"的课,可能只是"课没找到对的学生"。

招聘。过去十年被"简历不匹配"筛掉的候选人里,有多少其实能做得很好?LinkedIn 的 ATS 过滤是一种极粗糙的匹配。未来 AI + 多模态简历理解可能会让很多被忽略的人重新进入视野。

房地产。美国现在有 30% 以上的商业办公空置。这些楼没价值吗?不是。是没找到对的用法。AI 可能会把办公、居住、仓储、轻工之间的边界重新洗牌。

每个行业都有自己的"95% 失败"。大部分失败是配对问题,不是本质问题。这是我这周最大的收获。

img-02

对中国创业者的启发

国内做生物 AI 的公司不少。大部分在卷 AlphaFold 那条路——预测蛋白结构、设计新药。这条路很贵,周期很长,和国外大厂正面碰撞。

Noetik 这条路在国内几乎没人做。原因之一是——国内缺少开放的临床失败药物数据库。FDA 的失败药物档案是半公开的,哪些药进了几期、副作用如何、被否决原因,业内人能查到。中国的 NMPA 没有类似透明度。

但反过来看,这也意味着——谁如果能在国内做出一个"失败药重匹配"的数据协作平台,那就是下一个阶段的基础设施机会。需要和监管谈,和一批大三甲谈,和药企的研发部门谈。慢,但深。

我认识一些在做这件事的人,都低调。不在 AI 圈的主流视野里。如果你做投资或者做战略,值得去看一眼。

反面论证:这事儿可能错在哪

为了不当啦啦队,我自己列几个反面论证。

一,TARIO-2 的预测精度可能被高估。从 H&E 图预测 19000 个基因的空间表达——这是一个极强的 compression claim。论文发了,但真实临床数据上的泛化能力还没被独立验证。未来 12 个月如果有第三方验证失败,这个故事会大打折扣。

二,"老药重启"的 FDA 路径不一定比想象得短。即使药物本身过了安全性,重启临床试验还是需要新的 protocol、新的入组标准、新的统计分析。FDA 对"AI 筛选的病人亚组"的认可程度还有不确定性。

三,GSK 5000 万合作可能是 marketing 多于产品。大药厂给 AI 公司的"长期授权"合同,很多都是试水性质。未来 18 个月有没有基于 Noetik 平台重启的药进到三期,才是真正的验证。

即便如此,我还是觉得这个方向值得追。不是因为 Noetik 一定成功,是因为它提出的问题——失败真的是失败吗——太值得每个行业问一遍。

三个可转发的金句

过去几十年被否决的癌症药,大部分是好药。错的不是药,是病人。

每个行业都有自己的 95% 失败。大部分失败是配对问题,不是本质问题。

AlphaFold 那条路是做新东西。Noetik 这条路是让死过的东西复活。后者可能更大。


Arthur 是 AI Agent 产品建设者。他看 Noetik 不是看生物,是看商业模式。