返回博客

GPT-Rosalind 拆解:OpenAI 自己下场做垂类模型,意味着什么

OpenAIGPT-Rosalind垂类模型AI for Science产品策略

周三,OpenAI 发了 GPT-Rosalind。一个生命科学专用模型,名字致敬 Rosalind Franklin——那位拍出 DNA 双螺旋 X 光衍射照片、贡献被压了几十年的女科学家。

如果你只看到"OpenAI 又发了个新模型",会错过这次发布最重要的信号。

我做每一个AI产品都在回答同一个问题:通用大模型怎么落到具体的行业里去?过去三年,这个问题的标准答案是"垂类创业公司用通用模型 + 工具调用 + 行业数据微调来解决"。OpenAI 守在通用底层,垂类公司在上面建生态。

GPT-Rosalind 是 OpenAI 第一次明确打破这个分工。

Situation:制药行业的"10-15 年时间黑洞"

OpenAI 在公告里给了一个数字:在美国,一个新药从靶点发现到 FDA 批准,平均需要 10-15 年。

这 10-15 年里,AI 已经渗透了很多环节。AlphaFold 解决了蛋白质结构预测,2020 年的事;ESM 系列做到了序列到功能的预测;Insilico Medicine、Recursion、Isomorphic Labs(DeepMind 的子公司)这些垂类公司在用 AI 做苗头化合物筛选、毒理预测、临床试验设计。

但这些工具有个共同点:每一个解决一段,没有一个能贯穿全流程。生物学家每天在 PubMed 里查文献、在 UniProt 查蛋白序列、在 ChEMBL 查活性数据、在 ClinVar 查变异致病性、再回到 Excel 里手工拼合。50 多个数据库、几十个专业工具、加上无数的实验记录本。

这是 AI 很容易"插不进去"的地方:单点工具不缺,缺的是能像一个高级研究助理一样,理解上下文、调度工具、综合证据、给出研究假设的"大脑"。

Task:OpenAI 想在这条链路里塞一个什么

通用 GPT 进不去这个领域,原因有三条:

  1. 专业知识深度不够:GPT-5.4 知道 P53 是什么,但不知道你正在研究的某个 IDH1 突变在 2024 年某篇 Cell 论文里的最新机理
  2. 工具调用太散:通用模型的 function calling 适合调几个 API,调度 50+ 个生命科学专业数据库会失控
  3. 可验证性问题:科研对"幻觉"的容忍度是零。生物学家不会接受一个偶尔编造引用的助理

OpenAI 给自己出的题,是同时解决这三件事——而且要做到比第三方公司用 GPT-5.4 + RAG + 工具链拼出来的方案显著更好

Action:拆解 Rosalind 背后的 4 个产品决策

决策一:专用预训练,不只是微调

Rosalind 不是 GPT-5.4 加一层 LoRA。它是在 GPT 基座之上做了大规模生命科学语料的继续预训练(continued pretraining)+ 强化学习。这意味着 OpenAI 自己出钱出算力,把 PubMed 全库、专利数据库、序列库、实验协议库这些"贵且乱"的数据源,按生命科学的内在结构组织起来训进去了。

这不是任何一家垂类创业公司能轻易复刻的事。预训练级别的投入,过去都是 OpenAI 留给"通用底座"的。这次破例,意味着 OpenAI 判断生命科学这个市场的体量和战略价值,值得它把"专用基座"这张牌打出去

决策二:50+ 科学工具的深度集成

发布的同时,Rosalind 配了一个 Life Sciences Research Plugin for Codex,连接 50 多个科学数据源和工具。Plugin 是关键词——这不是"模型支持调用 API",是 OpenAI 把这些工具的接口规范、认证、错误处理、输出格式全部预先封装好。

为什么这件事重要?因为 50+ 工具的集成工作量,是任何一个垂类创业公司的"护城河"。一旦 OpenAI 自己把这条护城河填了,那些靠"我们整合了 N 个生物数据库"做差异化的工具公司,瞬间失去半条命。

决策三:紧绑顶级合作伙伴

Amgen、Moderna、Novo Nordisk、Allen Institute、Thermo Fisher Scientific——五个全球生命科学的顶级名字直接挂在公告里。还有 Dyno Therapeutics(基因治疗 AI 公司)、洛斯阿拉莫斯国家实验室(蛋白质设计合作)。

挂这些名字不是凑数,是产品策略:

  • 数据飞轮:这些公司的内部研究数据,通过合规通道反馈给 Rosalind,下一代模型用这些数据继续优化
  • 场景定义权:科学界对 AI 模型的"好不好"的标准,将由这几家头部用户的反馈定义,而不是 Hugging Face 的 leaderboard
  • 进入壁垒:跟 OpenAI 直接合作的药企,不会再去试初创垂类工具

决策四:限定访问,主动放弃 to C 流量

Rosalind 不在 ChatGPT Pro 里给所有人玩。它只对通过资质审核的美国 Enterprise 客户开放,要做"qualification + safety review"。

这个决策反直觉。OpenAI 一向是流量优先、ChatGPT 入口优先的打法。但 Rosalind 主动拒绝大众访问,原因有两个:

  1. 生物安全:这个模型能加速病原体设计这件事是真实的风险(dual-use research of concern),OpenAI 必须管住入口
  2. 信号传递:明确告诉市场和监管"这是给专业用户的工具"——为后续生命科学领域的合规、医保、FDA 沟通铺路

Result:基准、合作、行业反应

基准:BixBench SOTA

OpenAI 公布了一个数字:在 BixBench 这个真实生物信息学+数据分析任务的基准上,Rosalind 是发布结果中最高分。BixBench 的特点是任务多步、需要调度工具、需要综合多个数据源——也就是 Rosalind 最被设计来解决的那种问题。

要客观看:BixBench 是 OpenAI 自己挑出来 highlight 的基准,不代表所有维度都领先。但 BixBench 选的题型,恰好是 Insilico、Recursion 这些垂类公司一直主打的核心场景。OpenAI 在这个题型上"published results 第一",已经是非常硬的信号。

合作:5 家头部药企+顶级研究机构

发布日已经有 7 家机构在用,全是头部。对照过去 18 个月里,多个生命科学 AI 创业公司花了大量精力签的"战略合作",OpenAI 一次直接收了一打。

行业反应

公告 24 小时内:

  • 几家上市的 AI 药物发现公司股价微跌
  • 风投社群开始重新评估 vertical AI 创业公司的估值逻辑
  • Hugging Face 上几个开源生命科学模型的 star 增速反而上升(部分人开始押"开源对抗闭源")

方法论:通用模型 vs 垂类模型的"双注策略"

把 Rosalind 放进 OpenAI 这两年的产品节奏里看,结构很清楚:

时间动作信号
2024GPT-5 系列扩规模通用基础能力是核心壁垒
2025 H1Operator / 浏览器 Agent把基础能力变成 Agent 流量
2025 H2开发者生态扩张(Apps SDK、AgentKit)让别人在我之上建生态
2026 Q1GPT-5.4-Cyber(限定访问)在敏感领域开始做"专用 + 限定"
2026 Q2GPT-Rosalind正式下场做垂类基础模型

这是双注策略,不是路线切换:

  • 通用模型继续做(GPT-N,无限堆能力,吃 to C 流量)
  • 垂类模型同步做(专用预训练 + 限定访问 + 顶级合作,吃 to B 高价值场景)

OpenAI 之前不下场垂类,是因为通用模型还在快速变强,吃通用流量的边际收益高于切片做垂类。Rosalind 的发布告诉你:OpenAI 内部判断"通用能力的边际"已经到了一个拐点。GPT-5.4 在生命科学上的表现不够好,再等 GPT-6 也不一定能解决,必须现在就做专用基座。

给中国 AI 创业者的 3 点启示

我做这几年 AI Agent 的最深感受:你建的东西,OpenAI 随时可以做得比你更好——只要它愿意做。

判断"它愿不愿意做你这块",过去靠拍脑袋。Rosalind 给了一个明确的信号集:

信号 1:你所在的行业,是不是有"专用预训练值得做"的特征?

具体看三条:领域语料是否海量且独特(PubMed 这种)、行业数据飞轮是否值钱(药企的研究数据)、监管壁垒是否够高(FDA 隔离了通用流量)。三条都满足的行业(医疗、法律、金融部分场景),未来 18-24 个月里 OpenAI 大概率会以"GPT-X-行业"的形式下场。

信号 2:你的护城河是不是"工具集成数量"?

如果是,赶紧换。50+ 工具集成在 OpenAI 决定做的那一刻,会被一次填掉。真正的护城河,是用户的私有数据、行业的客户关系、和只有在场才能积累的工艺知识——这些 OpenAI 短期内拿不到。

信号 3:你下场的不是"通用 vs 垂类"二选一,是"国内 vs 国外"的二选一。

Rosalind 限定美国 Enterprise 客户,本身就告诉你它不会过来抢中国市场。而国内的合规要求、客户关系、本地数据库(中文文献、国内基因库、医保数据)这些,是 OpenAI 进不来的护城河。这部分市场是真实的、有窗口期的、并且窗口期至少 24 个月。


我自己做的几个产品,都在重新审视上面三条。你也应该。OpenAI 这次出手不是终点,是一个分水岭:接下来 12 个月,你会看到至少 3 个 GPT-X-行业 模型出来。提前准备,比事后追赶便宜。

Rosalind Franklin 当年拍 DNA 衍射照片的时候,没有意识到她的 51 号照片会改变生物学。今天 OpenAI 用她的名字命名这个模型,挺合适——因为接下来几年,整个生物医药行业的"形状",都要被这个模型重新定义。

而每一个其它行业,都该开始想:轮到我的时候,我准备好了吗?


参考来源