技术进展
对齐微调触发大模型回忆版权书籍内容
Heooo 05月01日16时01分 1 阅读
「研究发现对大语言模型进行对齐微调时,会触发其回忆并生成训练数据中的受版权保护书籍内容。」
近日,一项名为“Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs”的研究引发AI技术领域关注,相关研究代码已在GitHub开源(链接:https://github.com/cauchy221/Alignment-Whack-a-Mole-Code)。该研究聚焦大语言模型的对齐微调环节,通过实验发现,原本在基础模型中可能未被激活的受版权保护书籍内容,在经过对齐微调后会被模型回忆并生成具体片段。这种现象被命名为“对齐打地鼠”,意指在优化模型对齐性、使其更符合人类指令的过程中,意外触发了原本被抑制的版权内容提取能力。该研究为大语言模型训练阶段的版权合规问题提供了新的研究方向,开源代码也为后续开发者和研究者探索对齐优化与版权保护的平衡机制提供了可复用的工具,有助于推动大模型技术在合规框架下的进一步发展。
# 大语言模型 # 对齐微调 # 版权内容回忆
来源:Heooo AI工具导航