出版商起诉Meta擅用版权训练Llama
政策法规

出版商起诉Meta擅用版权训练Llama

Heooo 05月07日00时03分 6 阅读

「五家出版商及作家起诉Meta和扎克伯格,指控其未经授权使用数百万版权作品训练AI模型Llama,构成侵权。」

近日,一场围绕AI训练数据版权的新法律战正式打响。五家知名出版集团——爱思唯尔、圣智、阿歇特图书集团、麦克米伦和麦格劳希尔,联合畅销书作家斯科特·图罗,在纽约联邦法院对Meta及其CEO马克·扎克伯格提起集体诉讼。原告指控Meta在开发其大型语言模型Llama时,非法使用了数百万部受版权保护的书籍和期刊文章,构成大规模侵权。


Meta logo

诉状中明确指出,Meta“未经许可复制并分发数百万部版权作品,未向作者或出版商提供任何补偿,且完全清楚其行为违反了版权法”。更引人注目的是,原告直接点名扎克伯格,称其“亲自授权并积极鼓励了这种侵权行为”。这一指控将Meta的最高决策者置于风暴中心,意味着公司高层可能从一开始就知晓并推动了使用受版权保护内容训练AI的策略。

原告律师援引Meta内部著名的“快速行动,打破常规”信条,认为该公司在AI训练数据收集上完全无视法律边界。涉案的作家群体阵容强大,除了图罗,还包括詹姆斯·帕特森、唐娜·塔特,以及两位普利策奖得主李翊云和阿曼达·韦尔。这些作品被广泛认为构成了Llama训练语料库的重要部分。

书籍和AI概念图

面对诉讼,Meta迅速做出强硬回应。该公司在一份声明中表示将“积极应诉”,并重申其立场:“AI正在为个人和企业带来变革性的创新、生产力和创造力,而法院已经正确认识到,在版权材料上训练AI可以构成合理使用。”这一辩护策略基于美国版权法中的“合理使用”原则,即在一定条件下,未经许可使用受版权保护的作品不构成侵权。Meta试图将自身行为类比为搜索引擎索引网页或学者引用文献,但出版界和作者群体显然不认同这种类比。

这起案件并非孤立事件。近年来,AI公司与内容创作者之间的版权冲突愈演愈烈。就在2025年,人工智能公司Anthropic同意支付15亿美元,以和解由惊悚小说作家安德烈亚·巴茨和非虚构作家查尔斯·格雷伯、柯克·华莱士·约翰逊发起的集体诉讼。该和解协议的最终批准听证会定于下周举行。这些案例表明,围绕AI训练数据的法律框架仍处于剧烈动荡之中。

法律文档与AI芯片

从技术角度看,Llama作为Meta开源的大语言模型,其训练数据来源一直是业界关注的焦点。Meta此前曾披露,Llama的训练数据包含Common Crawl、维基百科、书籍、论文等公开数据集,但具体哪些受版权保护的书籍被纳入,以及是否获得授权,始终是模糊地带。此次诉讼要求法院明确界定:AI模型在“学习”人类创作内容时,是否必须获得版权持有人的许可并支付费用。

如果原告胜诉,可能对整个AI行业产生深远影响。首先,AI公司将被迫重新审查其训练数据来源,可能需要与出版商、作者建立正式的授权与分成机制,这无疑会大幅增加模型训练成本。其次,开源模型的“合理使用”边界将被收紧,开发者不能再随意抓取互联网上的所有文本数据。最后,这一裁决可能推动全球范围内关于AI训练数据版权的立法进程,促使各国出台更明确的规则。

法庭与AI模型

对于Meta而言,这起诉讼正值其全力推进Llama系列模型的关键时期。Llama 2和Llama 3已在开发者社区获得广泛采用,成为开源AI生态的重要支柱。一旦被认定为系统性侵权,Meta不仅面临巨额赔偿,还可能被禁止使用相关数据集,甚至被迫删除已训练的模型权重。这将是对其开源战略的重大打击。

值得注意的是,原告方包括多家全球顶级学术出版集团,如爱思唯尔和圣智,它们控制着大量学术期刊和教科书版权。这些机构在版权保护上历来立场强硬,且拥有充足的法律资源。它们的加入使得此案不仅是文学界的抗争,更代表了整个知识生产行业对AI“免费使用”模式的挑战。

数据训练示意图

目前,案件刚刚进入诉讼程序,预计将经历漫长的证据开示和法庭辩论。核心争议点在于:AI模型通过统计学习提取文本中的模式、语法和知识,是否构成对原作品的“复制”或“演绎”?如果模型输出从未直接复制原文段落,是否仍构成侵权?这些问题尚无明确先例。

无论如何,这起诉讼已向整个AI行业发出明确信号:数据所有权和版权合规不再是可被忽视的灰色地带。随着AI能力日益强大,其训练数据的来源必须更加透明、合法。未来,AI开发者或许需要像音乐平台一样,与版权方建立自动化的授权支付系统,才能持续获得高质量训练数据。

未来AI与版权平衡

这场诉讼的结果,将可能成为AI版权史上的分水岭事件,深刻影响未来AI技术的研发路径和商业模式。

# Meta # Llama # 版权诉讼 # AI训练数据 # 合理使用

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表