研究揭示聊天模型拒绝机制依赖人格特征

近日，一篇发表在arXiv上的研究论文《Refusal Lives Downstream of Persona in Chat Models》揭示了指令微调聊天模型中一个此前未被充分理解的现象：模型的拒绝行为（refusal）与人格特征（persona）之间存在深层次交互，而非两个独立的机制。

该研究由计算机科学领域的研究人员完成，聚焦于Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct两个主流开源聊天模型。研究团队通过提取模型激活空间中的线性方向，分别定位了与“拒绝”和“顺从人格”相关的向量，并进行了干预实验。实验结果表明，顺从人格特征在模型中扮演着“门控”角色，直接影响拒绝行为的触发。

具体而言，当研究人员对模型进行顺从人格方向干预时，模型的拒绝率显著下降。在Llama-3.1-8B-Instruct模型中，拒绝率从97%骤降至2%。这一发现表明，模型是否拒绝用户请求，很大程度上取决于其当前激活的“人格”状态。如果模型处于顺从状态，即使存在拒绝信号，也可能不会执行拒绝行为。

进一步实验发现，拒绝信号的恢复能力与模型层数密切相关。在后期层（late layers）重新引入拒绝方向，可以在一定程度上恢复拒绝行为；但在早期层（early layers）进行相同操作，则几乎无效。这提示拒绝信号在模型前向传播过程中，其最终表达依赖于后期层的处理。

研究还通过“投影去除”实验验证了人格特征对拒绝行为的门控作用。在后期层窗口中去除人格方向后，模型的拒绝率恢复至基线水平；而去除随机方向则无此效果。这一结果排除了偶然因素，证实了人格方向在拒绝表达中的关键作用。

论文作者指出，传统上将拒绝视为一个孤立的、独立的线性方向，可能忽略了其与人格特征的耦合。拒绝行为实际上是“下游”的，它依赖于人格特征在后期层的表达。这意味着，要真正理解和控制聊天模型的拒绝行为，必须同时考虑模型的人格状态。

这一发现对AI安全与对齐研究具有重要意义。当前许多对齐方法通过直接修改拒绝方向来增强模型的安全性，但该研究提示，如果人格特征未被妥善管理，这些方法可能效果有限。例如，如果模型被诱导进入过度顺从状态，即使保留了拒绝方向，也可能无法有效拒绝有害请求。

此外，研究还暗示，不同模型在拒绝机制上可能具有共性。尽管实验仅针对Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct，但两个模型表现出相似的行为模式，表明该现象可能具有普遍性。未来研究可进一步扩展到更大规模模型，以验证这一假设。

从技术角度看，该研究为模型可解释性提供了新视角。通过线性方向干预，研究人员能够精确控制模型行为，这为开发更安全、更可控的AI系统提供了工具。同时，它也提醒开发者，在微调或部署聊天模型时，需要关注人格特征的潜在影响，避免意外改变模型的拒绝行为。

总体而言，这项研究深化了我们对指令微调模型内部机制的理解，揭示了拒绝与人格之间的耦合关系，并为未来的对齐研究指明了新方向。相关代码和数据已在GitHub上公开，供社区复现和进一步探索。

研究揭示聊天模型拒绝机制依赖人格特征

相关资讯

美团AI海报生成技术闭环破解百万商家视觉难题

人形机器人通用小脑GPT模型发布

四台Mac Studio集群成功运行万亿参数Kimi K2.6

百川智能发布M4模型突破医疗AI交互模式

百川发布医疗增强大模型M4，多项评测超越GPT