出版商起诉Meta侵权训练Llama模型

近日，一场围绕AI训练数据版权的新法律战正式打响。五家知名出版集团与畅销书作家斯科特·特罗（Scott Turow）联合向纽约联邦法院提起集体诉讼，指控Meta公司及其首席执行官马克·扎克伯格（Mark Zuckerberg）未经许可使用数百万部受版权保护的作品来训练其AI语言模型Llama。这起案件将科技巨头与图书社区之间长期存在的矛盾推向了新的高潮。

根据起诉书内容，原告方指控Meta在开发Llama模型时，系统性地复制并分发了数百万部受版权保护的书籍和期刊文章，且未获得任何授权，也未向作者或出版商支付任何报酬。原告强调，Meta明知其行为违反版权法，却依然坚持执行。更引人注目的是，起诉书直接点名扎克伯格，称其“亲自授权并积极鼓励”了这些侵权行为，认为Meta遵循了其著名的口号“快速行动，打破常规”（move fast and break things），将技术发展置于法律合规之上。

参与本次诉讼的出版集团包括爱思唯尔（Elsevier）、圣智学习（Cengage）、阿歇特图书集团（Hachette Book Group）、麦克米伦（Macmillan）和麦格劳希尔（McGraw Hill）。这些出版商代理的作者阵容强大，除了斯科特·特罗，还包括詹姆斯·帕特森（James Patterson）、唐娜·塔特（Donna Tartt），以及刚刚在周一获得普利策奖的两位作家李翊云（Yiyun Li）和阿曼达·韦尔（Amanda Vaill）。原告方认为，Meta未经授权使用这些高质量、受版权保护的文本资源，不仅损害了作者和出版商的合法权益，也对整个文学创作生态构成了威胁。

面对诉讼，Meta公司迅速作出回应。在一份声明中，Meta表示将“积极应对这场诉讼”。公司辩称，AI正在为个人和企业带来变革性的创新、生产力和创造力，而法院此前已正确认定，在受版权保护的材料上训练AI可构成“合理使用”（fair use）。这一立场代表了当前AI行业普遍的法律辩护策略，即认为对公开数据进行非表达性、统计性的学习，属于版权法中的合理使用范畴，不构成侵权。

这并非AI领域首次遭遇版权诉讼。近年来，多位作家已对AI公司提起法律行动。例如，2025年，AI公司Anthropic同意支付15亿美元，以和解由惊悚小说作家安德烈亚·巴茨（Andrea Bartz）与非虚构作家查尔斯·格雷伯（Charles Graeber）和柯克·华莱士·约翰逊（Kirk Wallace Johnson）发起的集体诉讼。该和解协议的最终批准听证会定于下周举行。这些案例表明，AI训练数据的版权问题已成为行业面临的重大法律挑战。

从技术层面看，大型语言模型的训练依赖于海量文本数据。Meta的Llama系列模型作为开源大模型的重要代表，其训练数据的来源和合法性一直备受关注。此次诉讼的核心争议在于：AI公司是否有权在未获得明确许可的情况下，大规模抓取并复制受版权保护的书籍用于模型训练？如果法院最终判定Meta败诉，将可能对整个AI行业的训练数据获取方式产生深远影响，迫使AI公司转向更严格的授权模式或寻求替代数据源。

目前，该诉讼仍在初期阶段。原告寻求的赔偿金额尚未明确，但考虑到涉及数百万部作品，潜在赔偿数额可能极为庞大。这起案件不仅关乎Meta和扎克伯格个人的法律责任，更将检验现有版权法在AI时代如何适用。对于AI开发者而言，如何平衡技术创新与知识产权保护，将成为未来必须面对的核心议题。

值得注意的是，Meta在回应中强调“AI正在推动变革性创新”，这反映了科技行业普遍持有的观点：AI模型的训练过程类似于人类学习，是对现有知识的统计分析和模式提取，而非简单的复制。然而，出版商和作者群体则坚持认为，大规模复制受版权保护的完整作品用于商业模型训练，已经超出了合理使用的边界，构成了直接侵权。两种观点的碰撞，使得这起诉讼成为AI版权领域的一个标志性案例。

随着AI技术的快速迭代，类似的法律纠纷预计会越来越多。无论是Meta的Llama，还是其他公司的AI模型，其训练数据的透明度、合法性和伦理问题，正逐渐从技术讨论走向法律审判。这起诉讼的结果，将为AI行业的数据实践提供重要的法律先例。

目前，纽约联邦法院已受理此案。案件编号和后续庭审日期尚未公布。业界将密切关注这一诉讼的进展，因为它很可能决定未来AI模型训练数据的使用规则。