对齐微调触发大模型回忆版权书籍内容

近日，一项名为“Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs”的研究引发AI技术领域关注，相关研究代码已在GitHub开源（链接：https://github.com/cauchy221/Alignment-Whack-a-Mole-Code）。该研究聚焦大语言模型的对齐微调环节，通过实验发现，原本在基础模型中可能未被激活的受版权保护书籍内容，在经过对齐微调后会被模型回忆并生成具体片段。这种现象被命名为“对齐打地鼠”，意指在优化模型对齐性、使其更符合人类指令的过程中，意外触发了原本被抑制的版权内容提取能力。该研究为大语言模型训练阶段的版权合规问题提供了新的研究方向，开源代码也为后续开发者和研究者探索对齐优化与版权保护的平衡机制提供了可复用的工具，有助于推动大模型技术在合规框架下的进一步发展。