Meta被诉侵权案：扎克伯格被指授权AI训练用盗版内容

近日，一场关于AI训练数据版权的新诉讼在美国联邦法院正式立案。五家出版巨头——Elsevier、Cengage、Hachette Book Group、Macmillan和McGraw Hill，联合知名作家Scott Turow，共同起诉Meta及其CEO马克·扎克伯格，指控该公司在未经授权的情况下，大规模使用受版权保护的书籍和文章来训练其大语言模型Llama。

原告方在诉状中声称，Meta的行为违反了其著名的内部口号“快速行动，打破常规”（move fast and break things）。他们指出，Meta“在未获得许可、未向作者或出版商提供任何补偿，且完全知晓其行为违反版权法的情况下，复制并分发了数百万件受版权保护的作品。”更关键的是，诉状直接点名扎克伯格本人，称其“亲自授权并积极鼓励了这种侵权行为”。

这起案件并非孤立事件。近年来，随着生成式AI技术的爆发式增长，围绕训练数据合法性的争议愈演愈烈。作者群体与AI公司之间的法律对抗已成为行业常态。例如，在2025年，Anthropic公司曾同意支付15亿美元，以和解由惊悚小说作家Andrea Bartz及非虚构作家Charles Graeber、Kirk Wallace Johnson发起的集体诉讼。该和解协议的最后批准听证会将于下周举行。

Meta方面对此反应强硬。在一份声明中，公司表示将“积极应对这场诉讼”。声明强调：“AI正在为个人和企业带来变革性的创新、生产力和创造力，而法院此前已正确认定，在受版权保护的材料上训练AI可以构成合理使用。”这一立场代表了当前AI行业的主流法律辩护逻辑：将公开可获取的数据用于模型训练，属于“转换性使用”，不构成侵权。

然而，原告方显然不认同这一观点。他们列举了多位知名作家，包括James Patterson、Donna Tartt、前总统Joe Biden，以及最近获得普利策奖的Yiyun Li和Amanda Vaill，其作品均被Meta未经许可用于训练。这些作家和出版商认为，AI公司不应以技术发展为名，无偿掠夺创作者的智力成果。

从技术角度看，Llama作为Meta开源的大语言模型，其训练数据来源一直是社区关注的焦点。Meta此前曾披露，其训练数据包含Common Crawl、维基百科、书籍、论文、代码等多种来源，但具体到受版权保护的书籍比例，从未给出明确说明。此次诉讼的焦点，正是要厘清这些书籍数据是否获得了合法授权。

这起案件的结果可能对整个AI行业产生深远影响。如果法院最终裁定Meta败诉，将迫使所有AI公司重新审视其数据采集策略，可能不得不转向与出版商签订付费许可协议，或者完全依赖公共领域数据。反之，如果Meta胜诉，则可能为AI公司大规模使用受版权保护数据扫清法律障碍，进一步加速模型迭代速度。

值得注意的是，扎克伯格被直接列为被告，在AI版权诉讼中尚属首次。这反映了原告方试图将责任上溯至公司最高决策层的策略。诉状中提到的“亲自授权”指控，如果被证实，将可能使扎克伯格个人面临法律风险，而不仅仅是公司层面的赔偿。

目前，案件仍在初期阶段，Meta尚未提交正式答辩。但可以预见，这场诉讼将成为继Anthropic和解案之后，AI版权领域的又一标志性事件。对于全球AI开发者而言，这无疑是一个警示：在追求模型性能的同时，必须更加审慎地处理训练数据的版权问题。

随着生成式AI技术的持续普及，版权问题已从边缘争议演变为行业核心挑战。无论是开源社区还是商业公司，都迫切需要建立一套清晰、公平的数据使用规范。这起针对Meta的诉讼，或许正是推动这一规范形成的关键一步。

Meta被诉侵权案：扎克伯格被指授权AI训练用盗版内容

相关资讯

AI浏览器大战：新锐挑战者崛起

巴黎Station F加速器助力欧洲AI初创腾飞

谷歌广告想象AI助力起草独立宣言

阿里禁止员工使用Claude Code转向自研工具

Meta低调推出AI游戏生成应用Pocket