大英百科起诉OpenAI:答案你写,凭什么署我的名
来源:36kr 20 小时前

AI之战,终于打到了“署名权”这一层。2026年3月13日,Encyclopaedia Britannica(大英百科全书,以下简称大英百科) 与 Merriam-Webster (韦氏词典)在纽约曼哈顿联邦地区法院起诉 OpenAI,指控其未经授权使用近10万篇百科与词典内容训练模型,并在回答中近乎逐字复现原文。原告同时主张,ChatGPT会把错误甚至幻觉内容归因给大英百科或韦氏词典。

这不是一场普通的AI版权案

从表面看,这起诉讼仍属于近两年AI内容诉讼潮的一部分,训练阶段是否未经授权使用作品,输出阶段是否构成复现,商业上是否替代原网站流量。 但大英百科这次不只是说:你用了我的内容,还在说,你用了我的名字。

这就让案件从“版权使用边界之争”,进一步转向“知识权威能否被AI借名调用”之争。对内容行业来说,版权当然重要;但对百科、词典这类知识品牌而言,来源可信度和品牌署名权威,同样是核心资产。

第一条战线:训练阶段,近10万篇内容是否构成未经授权复制

根据路透等报道,原告称 OpenAI 非法使用了近10万篇 Britannica 与 Merriam-Webster 的文章、词条和定义,用于训练 GPT 系列模型。

这类内容与普通网页信息不同。百科条目、词典释义、编辑体系、条目编排、表达方式,本身就具有稳定的商业价值和版权属性。原告的核心逻辑也因此非常明确:不是零散引用,不是个别摘录,而是系统性、规模化、商业化地吸收进模型训练流程。

如果法院未来认可这种主张,训练阶段的“合理使用”抗辩空间,至少在高质量、结构化、可替代性强的知识内容上,可能会被进一步压缩。这也是为什么百科和词典类原告,比一般媒体原告更容易把争点压到“作品体系整体被吸收”这一层。这个判断,是基于本案起诉路径作出的分析。

第二条战线:输出阶段,模型到底是在“学习”还是在“记住”

本案另一项重要指控,是 ChatGPT 输出与大英百科 原文“逐字相同或高度近似”的内容。相关媒体在报道时都提到,诉状附有 ChatGPT 输出与原文近乎逐字对应的示例。

这正是当前AI版权案里最危险、也最核心的问题,模型究竟是在抽象学习,还是在可触发条件下对原文进行近似复现?

如果后续程序中,这部分证据被法院认为足以证明“记忆化”或可归责的近似复制,那么案件的重心就不再只是“训练时碰过没有”,而会变成,你最终生成出来的东西,是否已经回到了版权法最传统的禁区——复制。

对大模型公司来说,这一层风险比单纯“训练数据来源争议”更实在。因为训练阶段还可以辩论技术中间过程、统计抽象、转换性使用;但一旦输出端出现成段近似复现,法院看到的就不再是抽象技术,而是一个更直观的问题——用户拿到的,是不是原告作品的替代品。

第三条战线:RAG不是避风港,反而可能变成新风险点

原告还把矛头指向了RAG,也就是检索增强生成工作流,称 OpenAI 在回答中直接调用大英百科内容来补充输出。路透报道中明确提到,原告诉求覆盖了训练使用、输出复现,以及让 ChatGPT 借助其内容直接回答用户问题所造成的损害。

这部分为什么值得警惕?因为训练争议还可以说是“过去式”的数据吸收;RAG则更像“现在式”的内容调用。训练阶段的争议,围绕的是模型成长过程;RAG阶段的争议,围绕的是模型当下正在用谁的内容回答问题

如果法院未来对这一路径持严格态度,那影响就不只是 OpenAI 一家。大量“搜索+生成”“知识库+回答”“外部内容实时检索+整合输出”的AI产品,都要重新审视几个问题,有没有授权,调用边界在哪里,引用和替代之间的线画在哪。换句话说,本案真正可能外溢的,不只是版权法逻辑,而是整个AI信息架构的合规成本。

这起案件最有辨识度的地方,不在版权,而在商标与来源标注。

过去很多AI争议,焦点都在作品有没有被抓取、答案有没有过度相似。而大英百科这次在问的是:谁有资格说 “according to Britannica?”

对百科和词典来说,内容当然重要,但真正稀缺的,是被社会长期承认的可信来源身份。如果AI生成了错误内容,却挂上大英百科的名字,那损害的就不只是某个条目的点击量,而是品牌所代表的知识权威。

从法律路径看,这种打法也更有延展性。版权问题常常会落入合理使用、转换性利用、训练必要性的激烈争论;但一旦进入“虚假来源标注”“错误归因”、“品牌背书被挪用”的框架,诉讼的直觉张力更强,陪审团或法官也更容易理解其损害逻辑。

被替代的不只是文章,还有流量入口

大英百科认为 ChatGPT 直接生成答案,削弱了用户访问其网站的必要性,从而“蚕食”原本属于其平台的流量、广告与订阅价值。

这也是内容行业与AI平台冲突不断升级的底层现实。过去搜索引擎至少还会把流量导回网站;现在生成式AI越来越像“答案终点站”,用户在对话框里拿到结论,就不再去原页面。

最后,用户记住的是AI,原始内容提供者反而被留在后台。

对于媒体、百科、词典、数据库这类机构来说,这不只是版权收益受损,而是入口地位被改写。谁控制答案分发,谁就更接近下一代知识基础设施。这也是大英百科这类老牌知识机构必须出手的真正原因。

OpenAI的回应与这案子的真正看点

路透援引 OpenAI 发言人表态称,ChatGPT 有助于提升创造力、科学发现和日常效率,其模型基于公开可用数据训练,并以合理使用原则为依据。

这当然是AI公司目前最标准、也最核心的抗辩框架。但大英百科案的看点恰恰在于,它试图把争议从“公开可用数据能否训练”转向三个更难回避的问题:

第一,模型是否会近似复现原文。第二,RAG或其他调用机制是否构成对版权内容的实时利用。第三,AI能否把错误内容归在知名知识品牌名下。

前两个问题,AI行业过去两年已经在打;第三个问题,才是这案子真正的新变量。

知产力判断

如果说过去的AI版权诉讼,争的是“数据能不能喂模型”;那么这起案件,争的已经是:答案能不能挂我的名。

从这个意义上看,大英百科起诉OpenAI,不只是一次版权维权。它更像是传统知识机构对AI时代“来源秩序”的一次反击。

简体中文 English