如果你的观点不能生成一个可以被证伪的预测,那它就不是观点,是噪音。
做 AI 产品三年,我参加过的战略会议少说有几百场。有一个现象始终困扰我:会议室里从来不缺观点,但大部分观点毫无重量。
"用户需要更智能的推荐。"
"市场会向多模态方向发展。"
"这个架构更优雅。"
"我觉得 RAG 已经到头了。"
这些话听起来都很合理。每一句都有人点头。但如果你追问一句——"所以你预测什么?如果你错了,我们怎么知道?"——会议室里通常会陷入沉默。
这不是小问题。在 AI 产品开发中,每一个判断都对应着资源投入:工程师的时间、GPU 的算力、客户的耐心。一个不能被验证的判断,和一句废话的区别,仅仅是它被说出来时穿着西装。
2007 年,Eliezer Yudkowsky 写了一篇文章,核心论点极其简洁:任何值得持有的信念,都必须能够生成具体的、可测试的预测。如果一个信念对你预期观察到的事情毫无影响,它就是空的。
他把这叫做信念的"交租测试"——你的信念必须通过约束你的预期来"支付租金"。如果它不能告诉你"如果这个信念是对的,你应该观察到 X 而不是 Y",那它就是一个白住不交租的房客。
这个框架来自科学哲学,但在我读到它的那一刻,我立刻想到的不是实验室,而是我们的产品会议。
因为 AI 产品开发中最贵的浪费,不是代码写错了,是方向判断错了但没有人发现。而方向判断之所以不会被发现错误,往往是因为它从一开始就没有被表述成一个可以被验证的形式。
在 AI 产品领域工作久了,我发现不交租的判断有三种经典形态。
第一种:永远正确的判断。 "AI 会改变一切。" "用户体验很重要。" "数据质量决定模型质量。" 这些话永远不会错,正因为它们永远不会错,所以它们毫无信息量。一个永远正确的命题,不能帮你在 A 方案和 B 方案之间做出选择。它不约束任何预期,所以它不交租。
第二种:不可证伪的判断。 "我们的模型是市场上最好的。" 这句话在很多厂商的 PPT 里反复出现。但当你问"最好"是什么意思?用什么指标衡量?在哪些场景下?和谁比较?比较的时间窗口是什么?——答案通常是模糊的。一个不可证伪的判断,不是因为它太高深,是因为它故意保持模糊,这样无论发生什么,它都可以声称自己是对的。
第三种:后见之明式判断。 "我早就说过这个方向不行。" 回头看,每个人都是先知。但真正的检验是:你在事前说了什么?你把预测写下来了吗?你给了具体的时间窗口和可观察的结果吗?如果没有,你不是在做判断,你是在做叙事。
这三种判断有一个共同特征:它们都不会让你付出任何代价。如果你的观点在任何结果下都能自圆其说,那它本质上什么也没说。
我的计算数学背景让我对这个框架有一种天然的亲近感。在数学里,一个定理的价值不在于它听起来多深刻,而在于它排除了什么——它告诉你哪些情况不可能发生。一个什么都没排除的命题,在数学里叫恒真式,它的信息量为零。
信念交租的逻辑完全一样:一个判断的价值,等于它所排除的可能性的数量。
那么在 AI 产品开发中,一个"交租"的判断长什么样?
不交租的版本:"用户会喜欢我们的新功能。"
交租的版本:"上线后 14 天内,使用该功能的用户次日留存率会比未使用者高 8 个百分点以上。如果没有,说明我们对用户需求的理解有误。"
不交租的版本:"这个供应商的大模型效果很好。"
交租的版本:"在我们的金融问答测试集上,该模型的准确率应该达到 85% 以上,延迟在 500ms 以内。如果达不到,我们重新评估。"
不交租的版本:"多 Agent 架构是未来的趋势。"
交租的版本:"我预测在接下来 12 个月内,至少有三个头部客户会主动要求从单 Agent 切换到多 Agent 方案。如果没有,说明市场需求没有我想象的那么强。"
区别很明显:交租的判断有具体的数字、明确的时间窗口、可观察的结果,以及——最重要的——一个"如果我错了"的条款。
这不是纸上谈兵。让我说几个真实的教训。
两年前,我们在做一个 Agent 产品的技术选型时,团队里有一种强烈的直觉:"自研向量数据库比用开源方案更适合我们的场景。"这个判断听起来合理,而且符合技术团队的偏好。但没有人把它转化成一个可测试的预测。
我们花了四个月自研。最后发现,在我们的实际负载下,自研方案和开源方案的性能差异不到 5%,但我们为此多花了大约两个工程师半年的时间。
如果当初有人说:"自研方案在 1000 QPS 下的 P99 延迟会比 Milvus 低 30% 以上"——这就是一个交租的判断。我们可以在两周内搭一个 benchmark 验证它,而不是花四个月去信仰。
还有一次,一个供应商声称他们的模型"在金融场景下表现最佳"。我问了一个简单的问题:"你们有没有在标准的金融 NLP benchmark 上跑过?结果是什么?"对方支吾了半天,最后承认他们的评测是"内部定性评估"。
翻译成人话:他们觉得自己的模型不错,但从来没有让这个信念接受过可被证伪的检验。
认识到这个问题之后,我在团队中推行了几个具体的实践。
产品决策文档必须包含"预测与验证"板块。 每个重要决策都要回答三个问题:你预测什么具体结果?如何衡量?如果预测落空,我们的结论是什么?这不是为了惩罚预测错误的人,而是为了确保每个决策都有一个"退出条件"。
供应商评估必须是可量化的。 不接受"我们的模型最好"这种说法。给我测试集,给我指标,给我可比较的基线。如果供应商拒绝提供这些,这本身就是一个强信号——他们的信念不愿意交租。
季度回顾要复盘预测。 每个季度结束时,我们会回头看三个月前做的预测。不是为了追责,是为了校准。哪些预测是准的?哪些偏差很大?偏差的原因是什么?这个过程比预测本身更有价值,因为它在训练团队的判断力。
战略讨论必须可操作化。 "市场会向 X 方向发展"这种话,在我们的会上必须被追问到底。如果市场真的向 X 发展,六个月后我们应该观察到什么具体现象?客户行为会有什么变化?竞品会做什么动作?把模糊的战略判断逼成具体的预测,是防止战略会变成空谈会的唯一方法。
有人会说:这太严格了。不是所有判断都能被量化。创新需要直觉,需要模糊的感知。
我同意。但 Yudkowsky 的框架不是要消灭直觉,而是要给直觉一个检验机制。
你完全可以凭直觉做出判断。但如果你的直觉连一个粗略的预测都生成不了,你就该怀疑这个直觉的质量。一个无法被任何观察结果影响的信念,不是深刻的洞察,是认知的死角。
反过来说,当你要求自己的判断交租时,会发生几件好事:
首先,判断的质量会提高。因为你被迫思考具体的机制:为什么你预测 A 而不是 B?背后的因果链条是什么?这个思考过程本身就在锐化你的思维。
其次,团队的决策效率会提高。当分歧可以被表述为"你预测 X,我预测 Y,让我们设计一个实验来看谁对"时,争论变成了协作。
第三,错误会被更早发现。一个不交租的判断可以错误地存活很久,因为它永远不会被现实打脸。一个交租的判断会在预测窗口到期时被检验,如果它错了,你在损失扩大之前就能调整。
下次开会的时候,当有人说"我认为……"的时候,试着在心里问一个问题:
如果这个判断是对的,我应该观察到什么?如果是错的呢?
如果答案是"无论发生什么,这个判断看起来都是对的"——那它就不是判断,是噪音。
在 AI 的赛道上,我们做的每一个决策都在和时间赛跑。我们没有资源养那些不交租的信念。
让你的判断交租。不交租的,请搬走。
1. Eliezer Yudkowsky (2007). "Making Beliefs Pay Rent (in Anticipated Experiences)." LessWrong. [lesswrong.com](https://www.lesswrong.com/posts/a7n8GdKiAZRX86T5A/making-beliefs-pay-rent-in-anticipated-experiences)
2. Karl Popper (1963). Conjectures and Refutations: The Growth of Scientific Knowledge. Routledge.
3. Douglas Hubbard (2010). How to Measure Anything: Finding the Value of Intangibles in Business. Wiley.
4. Philip Tetlock (2015). Superforecasting: The Art and Science of Prediction. Crown.