上周 HackerNews 顶到首页一篇博文,标题很直白:AI is just unauthorised plagiarism at a bigger scale。AI 不过是更大规模的未授权抄袭。
作者叫 Axel,写了一段亲身经历——他做的电商教程被人喂给 ChatGPT,洗成新文章,Google 排名还反超他了。最离谱的是洗稿那个人懒到连他原文的超链接锚文本都没改干净,露了馅。
读完这段我有点同情他。
然后我又读了一遍那篇博文,把那个"AI = 大规模抄袭"的论点单拎出来想——这句话听起来很顺嘴,转发量很高,但讲不通。
大多数人反驳"AI 是抄袭"会从法律出发——合理使用、转换性使用、训练不等于复制、模型权重不存储原文。这些说法都对。但用这些说法去说服一个被洗稿洗到失血的内容创作者,没用。
因为 Axel 不是在讲法律。
他是在讲一件更原始的事:我写的东西被人不付钱拿走了,对方拿走之后赚到的比我多。
这件事用"合理使用"四个字盖不住。Sam Altman 的 OpenAI 在 2024 年估值 1570 亿美元,纽约时报告它的诉讼到现在还在打。Anthropic 跟出版商和解了一笔 15 亿美元,赔的是把 700 万本盗版书喂进训练数据这事。这些不是法律技术问题,是分账问题。
但 Axel 那句"AI = 抄袭"还是讲不通。
讲不通的地方在——他把两件性质完全不同的事压成了一句话。
洗稿那个人是真在抄。他用 ChatGPT 当工具,目标明确——把 Axel 的具体文章洗成新版本,发到自己站上,赚 Axel 本来该赚的钱。
这件事 ChatGPT 出现之前就在干。
2010 年代国内 SEO 黑产就在干这件事,工具叫"伪原创"。一篇文章过一遍伪原创工具,同义词替换、句子打乱、段落颠倒,搜索引擎识别不出来。整个产业链养活了一批人。
ChatGPT 让这件事的成本从一杯咖啡降到了一口水。仅此而已。
所以那个洗稿的人是抄袭者,没争议。
GPT-4 是不是抄袭者,这是另一个问题——而且这个问题大多数讨论里被跳过去了。
模型训练时见过 Axel 那篇文章。也见过 Stack Overflow 的几亿条回答、维基百科的几千万条目、Reddit 的几十亿条评论、Library Genesis 上几百万本书。
它从这些东西里学到的不是任何一段具体内容。它学到的是——
"电商教程通常这样组织。"
"步骤型文章一般这样开头。"
"产品比较类的段落一般这样收尾。"
这个跟人类学写作的过程没有本质区别。我大学的时候读了 50 本商业书,现在写产品分析文章的时候——我没有在抄那 50 本书里的任何一本。我学到的是"商业分析文章的写法"。
如果说 GPT-4 学过 Axel 的文章就算抄袭 Axel,那我读过《好战略坏战略》就算抄袭 Rumelt。这个推论不成立。
所以光说"AI = 抄袭"这话,把两件事压在一起了——洗稿的工具用户在抄,模型本身在学。前者是道德问题,后者是哲学问题,两个完全不在一个对话频道上。
承认上面那个区分之后,我得说——Axel 的不爽,有道理。
道理不在"模型在抄",道理在整条价值链没给原作者分钱。
OpenAI 的训练数据里有 Axel 的教程,OpenAI 估值 1570 亿。
洗稿那个人用 OpenAI 的产品做出新教程,他赚了 Google 的广告费。
Google 把洗稿教程排到原作者前面,它赚了点击费。
Axel 的访问量掉到零。
这条价值链上每个节点都赚钱,除了那个真正写出原始内容的人。
这件事跟"抄袭"两个字本身关系不大。这件事是经济结构问题——原创内容是上游,所有下游都在它身上变现,但上游拿不到分账。
Spotify 给一首歌每次播放分 0.003 美元,这是行业标准——丑是丑,至少是个数字。Google 把搜索流量从原作者那里搬到二手洗稿站,这种"分账"几乎是零。OpenAI 把训练数据吞进模型,没分账。
讲个具体的——纽约时报 2024 年告 OpenAI 的诉讼里,他们的律师向法庭演示了一件事:让 GPT-4 续写一篇《时报》文章的开头几句,模型输出的下一段跟原文几乎逐字一致。这说明什么?说明在某些边界情况下,模型不是"学到了规律",是"记住了原文"。
这件事让"模型只是在学,不是在抄"的辩护变得不那么干净。
但即便如此,我还是觉得 Axel 那句"AI = 抄袭"是个错位的论断。错位的不是道德立场,是诊断方向。把火力集中在"模型有没有抄"上,会让真正的问题——那条吃饭不付钱的价值链——被遮蔽。
这才是问题。
我在国内做了 15 年金融科技,看着 AI 这条战线起来。
国内训练数据获取的灰色地带比硅谷还浑浊。某些大模型公司的早期训练集——你知我知,里面有什么。爬虫爬来的、合作伙伴"友情提供"的、数据交易市场"二手转售"的。监管这两年才开始管《生成式人工智能服务管理暂行办法》要求训练数据来源合法,但执行上谁查谁也说不清楚。
更复杂的是,国内的内容生态本来就是个"洗稿合法化"的市场。
公众号生态里,"95% 原创度"这个分数线是平台默认的——也就是说同一篇文章你改 5% 就可以挂"原创"标签。微信生态里专门有工具帮你做这件事。整个内容行业建立在这个默认值之上。
所以当国内的内容创作者听到"AI 在抄我的东西"——他们当中大多数人本身也是别人抄的对象,也是抄别人的人。这个圈子里没有干净的手。
Axel 的愤怒在这个语境里会被稀释成"哦,又来一个"。
我认识一个做职场内容的朋友。她写了一篇 2 万字的行业研究,发出来之后两周内出现了 17 个洗稿版本,其中 3 个挂了"原创"标签。她去申诉,平台回复"经核实,相似度未达侵权标准"。她从那之后再没写过深度内容。
她不是个案。整个公众号生态里"深度内容创作者"在过去 3 年是个明显的衰减群体。原因不是 AI。原因是写完之后只有被洗稿的份儿。AI 来了之后这件事更快了——洗稿成本从一个人花一天降到一个 prompt 花 10 秒——但它不是这件事的起点。
我是做 AI Agent 产品的。我的工具调用各种基础模型——Claude、GPT、Gemini、Qwen。我也写博客,我的博客被各种 RAG 系统爬过,被各种"AI 简报"复述过。
所以我两边都站过。
我得说——我不爽过。看到自己写的某段在不署名的"AI 总结"里出现过,标点都没改。我截图骂过两句然后就放下了。
放下不是因为我大度,是因为我算了一下账——追责的成本远高于我能拿回的东西。OpenAI 的诉讼那么多家媒体在打,纽约时报有那个钱有那个律师。我没有。
这个就是为什么"抄袭论"在道德上很有共鸣,在解决问题上没什么用——它假设有一个清晰的对立面(AI 公司 / 创作者),而实际上对立面糊成一团,每个人既是受害者也是受益者。
我不知道。
我猜未来 5 年这事会以两种路径之一走完——
要么训练数据走向某种付费授权机制。像 Spotify 那样,模型公司按"训练时见过这条数据"给一笔小钱。AP 通讯社、Reddit、Stack Overflow 已经跟 OpenAI 签过这种协议了。
要么这事就稀里糊涂过去。下一代模型完全用合成数据训练,原始爬取数据不那么关键,整个争议变成历史问题。
我感觉第二条路更接近现实。
Axel 那篇博文的最后一段在骂 Google 排名机制。骂得对。但骂完之后呢?Google 不会改。OpenAI 不会赔。洗稿那个人会继续洗。
写博客这件事在 2026 年,回报正在归零。
不是因为 AI。
是因为整条价值链从一开始就不是为原创者设计的。AI 只是让这件事的速度快了 10 倍。