AI 抄袭论这事讲不通——但讲不通的地方，不在你以为的地方

上周 HackerNews 顶到首页一篇博文，标题很直白：AI is just unauthorised plagiarism at a bigger scale。AI 不过是更大规模的未授权抄袭。

作者叫 Axel，写了一段亲身经历——他做的电商教程被人喂给 ChatGPT，洗成新文章，Google 排名还反超他了。最离谱的是洗稿那个人懒到连他原文的超链接锚文本都没改干净，露了馅。

读完这段我有点同情他。

然后我又读了一遍那篇博文，把那个"AI = 大规模抄袭"的论点单拎出来想——这句话听起来很顺嘴，转发量很高，但讲不通。

讲不通的地方不在你以为的地方

大多数人反驳"AI 是抄袭"会从法律出发——合理使用、转换性使用、训练不等于复制、模型权重不存储原文。这些说法都对。但用这些说法去说服一个被洗稿洗到失血的内容创作者，没用。

因为 Axel 不是在讲法律。

他是在讲一件更原始的事：我写的东西被人不付钱拿走了，对方拿走之后赚到的比我多。

这件事用"合理使用"四个字盖不住。Sam Altman 的 OpenAI 在 2024 年估值 1570 亿美元，纽约时报告它的诉讼到现在还在打。Anthropic 跟出版商和解了一笔 15 亿美元，赔的是把 700 万本盗版书喂进训练数据这事。这些不是法律技术问题，是分账问题。

但 Axel 那句"AI = 抄袭"还是讲不通。

讲不通的地方在——他把两件性质完全不同的事压成了一句话。

洗稿那个人，跟模型本身，不是一件事

洗稿那个人是真在抄。他用 ChatGPT 当工具，目标明确——把 Axel 的具体文章洗成新版本，发到自己站上，赚 Axel 本来该赚的钱。

这件事 ChatGPT 出现之前就在干。

2010 年代国内 SEO 黑产就在干这件事，工具叫"伪原创"。一篇文章过一遍伪原创工具，同义词替换、句子打乱、段落颠倒，搜索引擎识别不出来。整个产业链养活了一批人。

ChatGPT 让这件事的成本从一杯咖啡降到了一口水。仅此而已。

所以那个洗稿的人是抄袭者，没争议。

GPT-4 是不是抄袭者，这是另一个问题——而且这个问题大多数讨论里被跳过去了。

模型训练时见过 Axel 那篇文章。也见过 Stack Overflow 的几亿条回答、维基百科的几千万条目、Reddit 的几十亿条评论、Library Genesis 上几百万本书。

它从这些东西里学到的不是任何一段具体内容。它学到的是——

"电商教程通常这样组织。"

"步骤型文章一般这样开头。"

"产品比较类的段落一般这样收尾。"

这个跟人类学写作的过程没有本质区别。我大学的时候读了 50 本商业书，现在写产品分析文章的时候——我没有在抄那 50 本书里的任何一本。我学到的是"商业分析文章的写法"。

如果说 GPT-4 学过 Axel 的文章就算抄袭 Axel，那我读过《好战略坏战略》就算抄袭 Rumelt。这个推论不成立。

所以光说"AI = 抄袭"这话，把两件事压在一起了——洗稿的工具用户在抄，模型本身在学。前者是道德问题，后者是哲学问题，两个完全不在一个对话频道上。

但抄袭论有它对的那部分

承认上面那个区分之后，我得说——Axel 的不爽，有道理。

道理不在"模型在抄"，道理在整条价值链没给原作者分钱。

OpenAI 的训练数据里有 Axel 的教程，OpenAI 估值 1570 亿。

洗稿那个人用 OpenAI 的产品做出新教程，他赚了 Google 的广告费。

Google 把洗稿教程排到原作者前面，它赚了点击费。

Axel 的访问量掉到零。

这条价值链上每个节点都赚钱，除了那个真正写出原始内容的人。

这件事跟"抄袭"两个字本身关系不大。这件事是经济结构问题——原创内容是上游，所有下游都在它身上变现，但上游拿不到分账。

Spotify 给一首歌每次播放分 0.003 美元，这是行业标准——丑是丑，至少是个数字。Google 把搜索流量从原作者那里搬到二手洗稿站，这种"分账"几乎是零。OpenAI 把训练数据吞进模型，没分账。

讲个具体的——纽约时报 2024 年告 OpenAI 的诉讼里，他们的律师向法庭演示了一件事：让 GPT-4 续写一篇《时报》文章的开头几句，模型输出的下一段跟原文几乎逐字一致。这说明什么？说明在某些边界情况下，模型不是"学到了规律"，是"记住了原文"。

这件事让"模型只是在学，不是在抄"的辩护变得不那么干净。

但即便如此，我还是觉得 Axel 那句"AI = 抄袭"是个错位的论断。错位的不是道德立场，是诊断方向。把火力集中在"模型有没有抄"上，会让真正的问题——那条吃饭不付钱的价值链——被遮蔽。

这才是问题。

龙国语境里这事更难讲

我在国内做了 15 年金融科技，看着 AI 这条战线起来。

国内训练数据获取的灰色地带比硅谷还浑浊。某些大模型公司的早期训练集——你知我知，里面有什么。爬虫爬来的、合作伙伴"友情提供"的、数据交易市场"二手转售"的。监管这两年才开始管《生成式人工智能服务管理暂行办法》要求训练数据来源合法，但执行上谁查谁也说不清楚。

更复杂的是，国内的内容生态本来就是个"洗稿合法化"的市场。

公众号生态里，"95% 原创度"这个分数线是平台默认的——也就是说同一篇文章你改 5% 就可以挂"原创"标签。微信生态里专门有工具帮你做这件事。整个内容行业建立在这个默认值之上。

所以当国内的内容创作者听到"AI 在抄我的东西"——他们当中大多数人本身也是别人抄的对象，也是抄别人的人。这个圈子里没有干净的手。

Axel 的愤怒在这个语境里会被稀释成"哦，又来一个"。

我认识一个做职场内容的朋友。她写了一篇 2 万字的行业研究，发出来之后两周内出现了 17 个洗稿版本，其中 3 个挂了"原创"标签。她去申诉，平台回复"经核实，相似度未达侵权标准"。她从那之后再没写过深度内容。

她不是个案。整个公众号生态里"深度内容创作者"在过去 3 年是个明显的衰减群体。原因不是 AI。原因是写完之后只有被洗稿的份儿。AI 来了之后这件事更快了——洗稿成本从一个人花一天降到一个 prompt 花 10 秒——但它不是这件事的起点。

我自己是哪一边

我是做 AI Agent 产品的。我的工具调用各种基础模型——Claude、GPT、Gemini、Qwen。我也写博客，我的博客被各种 RAG 系统爬过，被各种"AI 简报"复述过。

所以我两边都站过。

我得说——我不爽过。看到自己写的某段在不署名的"AI 总结"里出现过，标点都没改。我截图骂过两句然后就放下了。

放下不是因为我大度，是因为我算了一下账——追责的成本远高于我能拿回的东西。OpenAI 的诉讼那么多家媒体在打，纽约时报有那个钱有那个律师。我没有。

这个就是为什么"抄袭论"在道德上很有共鸣，在解决问题上没什么用——它假设有一个清晰的对立面（AI 公司 / 创作者），而实际上对立面糊成一团，每个人既是受害者也是受益者。

那这事该怎么收

我不知道。

我猜未来 5 年这事会以两种路径之一走完——

要么训练数据走向某种付费授权机制。像 Spotify 那样，模型公司按"训练时见过这条数据"给一笔小钱。AP 通讯社、Reddit、Stack Overflow 已经跟 OpenAI 签过这种协议了。

要么这事就稀里糊涂过去。下一代模型完全用合成数据训练，原始爬取数据不那么关键，整个争议变成历史问题。

我感觉第二条路更接近现实。

Axel 那篇博文的最后一段在骂 Google 排名机制。骂得对。但骂完之后呢？Google 不会改。OpenAI 不会赔。洗稿那个人会继续洗。

写博客这件事在 2026 年，回报正在归零。

不是因为 AI。

是因为整条价值链从一开始就不是为原创者设计的。AI 只是让这件事的速度快了 10 倍。