Meta被诉侵权案:扎克伯格被指授权AI训练用盗版内容
「五家出版商及作家起诉Meta,指控其CEO扎克伯格授权使用数百万盗版作品训练Llama模型,Meta回应将积极应诉。」
近日,一场关于AI训练数据版权的新诉讼在美国联邦法院正式立案。五家出版巨头——Elsevier、Cengage、Hachette Book Group、Macmillan和McGraw Hill,联合知名作家Scott Turow,共同起诉Meta及其CEO马克·扎克伯格,指控该公司在未经授权的情况下,大规模使用受版权保护的书籍和文章来训练其大语言模型Llama。
原告方在诉状中声称,Meta的行为违反了其著名的内部口号“快速行动,打破常规”(move fast and break things)。他们指出,Meta“在未获得许可、未向作者或出版商提供任何补偿,且完全知晓其行为违反版权法的情况下,复制并分发了数百万件受版权保护的作品。”更关键的是,诉状直接点名扎克伯格本人,称其“亲自授权并积极鼓励了这种侵权行为”。
这起案件并非孤立事件。近年来,随着生成式AI技术的爆发式增长,围绕训练数据合法性的争议愈演愈烈。作者群体与AI公司之间的法律对抗已成为行业常态。例如,在2025年,Anthropic公司曾同意支付15亿美元,以和解由惊悚小说作家Andrea Bartz及非虚构作家Charles Graeber、Kirk Wallace Johnson发起的集体诉讼。该和解协议的最后批准听证会将于下周举行。
Meta方面对此反应强硬。在一份声明中,公司表示将“积极应对这场诉讼”。声明强调:“AI正在为个人和企业带来变革性的创新、生产力和创造力,而法院此前已正确认定,在受版权保护的材料上训练AI可以构成合理使用。”这一立场代表了当前AI行业的主流法律辩护逻辑:将公开可获取的数据用于模型训练,属于“转换性使用”,不构成侵权。
然而,原告方显然不认同这一观点。他们列举了多位知名作家,包括James Patterson、Donna Tartt、前总统Joe Biden,以及最近获得普利策奖的Yiyun Li和Amanda Vaill,其作品均被Meta未经许可用于训练。这些作家和出版商认为,AI公司不应以技术发展为名,无偿掠夺创作者的智力成果。
从技术角度看,Llama作为Meta开源的大语言模型,其训练数据来源一直是社区关注的焦点。Meta此前曾披露,其训练数据包含Common Crawl、维基百科、书籍、论文、代码等多种来源,但具体到受版权保护的书籍比例,从未给出明确说明。此次诉讼的焦点,正是要厘清这些书籍数据是否获得了合法授权。
这起案件的结果可能对整个AI行业产生深远影响。如果法院最终裁定Meta败诉,将迫使所有AI公司重新审视其数据采集策略,可能不得不转向与出版商签订付费许可协议,或者完全依赖公共领域数据。反之,如果Meta胜诉,则可能为AI公司大规模使用受版权保护数据扫清法律障碍,进一步加速模型迭代速度。
值得注意的是,扎克伯格被直接列为被告,在AI版权诉讼中尚属首次。这反映了原告方试图将责任上溯至公司最高决策层的策略。诉状中提到的“亲自授权”指控,如果被证实,将可能使扎克伯格个人面临法律风险,而不仅仅是公司层面的赔偿。
目前,案件仍在初期阶段,Meta尚未提交正式答辩。但可以预见,这场诉讼将成为继Anthropic和解案之后,AI版权领域的又一标志性事件。对于全球AI开发者而言,这无疑是一个警示:在追求模型性能的同时,必须更加审慎地处理训练数据的版权问题。
随着生成式AI技术的持续普及,版权问题已从边缘争议演变为行业核心挑战。无论是开源社区还是商业公司,都迫切需要建立一套清晰、公平的数据使用规范。这起针对Meta的诉讼,或许正是推动这一规范形成的关键一步。
来源:Heooo AI工具导航