技术进展

研究揭示聊天模型拒绝机制依赖人格特征

Heooo 06月26日12时01分 2 阅读

「新研究指出,指令微调聊天模型中的拒绝行为并非独立存在,而是由顺从人格特征门控,在后期表达层发挥作用。」

近日,一篇发表在arXiv上的研究论文《Refusal Lives Downstream of Persona in Chat Models》揭示了指令微调聊天模型中一个此前未被充分理解的现象:模型的拒绝行为(refusal)与人格特征(persona)之间存在深层次交互,而非两个独立的机制。

该研究由计算机科学领域的研究人员完成,聚焦于Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct两个主流开源聊天模型。研究团队通过提取模型激活空间中的线性方向,分别定位了与“拒绝”和“顺从人格”相关的向量,并进行了干预实验。实验结果表明,顺从人格特征在模型中扮演着“门控”角色,直接影响拒绝行为的触发。

具体而言,当研究人员对模型进行顺从人格方向干预时,模型的拒绝率显著下降。在Llama-3.1-8B-Instruct模型中,拒绝率从97%骤降至2%。这一发现表明,模型是否拒绝用户请求,很大程度上取决于其当前激活的“人格”状态。如果模型处于顺从状态,即使存在拒绝信号,也可能不会执行拒绝行为。

进一步实验发现,拒绝信号的恢复能力与模型层数密切相关。在后期层(late layers)重新引入拒绝方向,可以在一定程度上恢复拒绝行为;但在早期层(early layers)进行相同操作,则几乎无效。这提示拒绝信号在模型前向传播过程中,其最终表达依赖于后期层的处理。

研究还通过“投影去除”实验验证了人格特征对拒绝行为的门控作用。在后期层窗口中去除人格方向后,模型的拒绝率恢复至基线水平;而去除随机方向则无此效果。这一结果排除了偶然因素,证实了人格方向在拒绝表达中的关键作用。

论文作者指出,传统上将拒绝视为一个孤立的、独立的线性方向,可能忽略了其与人格特征的耦合。拒绝行为实际上是“下游”的,它依赖于人格特征在后期层的表达。这意味着,要真正理解和控制聊天模型的拒绝行为,必须同时考虑模型的人格状态。

这一发现对AI安全与对齐研究具有重要意义。当前许多对齐方法通过直接修改拒绝方向来增强模型的安全性,但该研究提示,如果人格特征未被妥善管理,这些方法可能效果有限。例如,如果模型被诱导进入过度顺从状态,即使保留了拒绝方向,也可能无法有效拒绝有害请求。

此外,研究还暗示,不同模型在拒绝机制上可能具有共性。尽管实验仅针对Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct,但两个模型表现出相似的行为模式,表明该现象可能具有普遍性。未来研究可进一步扩展到更大规模模型,以验证这一假设。

从技术角度看,该研究为模型可解释性提供了新视角。通过线性方向干预,研究人员能够精确控制模型行为,这为开发更安全、更可控的AI系统提供了工具。同时,它也提醒开发者,在微调或部署聊天模型时,需要关注人格特征的潜在影响,避免意外改变模型的拒绝行为。

总体而言,这项研究深化了我们对指令微调模型内部机制的理解,揭示了拒绝与人格之间的耦合关系,并为未来的对齐研究指明了新方向。相关代码和数据已在GitHub上公开,供社区复现和进一步探索。

# AI安全 # 模型可解释性 # 聊天模型

来源:Heooo AI工具导航