TUR-DPO:拓扑与不确定性感知偏好优化方法
「研究提出TUR-DPO算法,通过引入推理拓扑结构和不确定性感知,改进直接偏好优化,提升大语言模型对齐的鲁棒性和性能。」
大语言模型(LLM)与人类偏好的对齐是当前AI研究的热点。传统方法如基于强化学习的近端策略优化(PPO)或更简洁的直接偏好优化(DPO)虽有效,但存在局限性:DPO将偏好视为简单的胜负信号,容易受到脆弱思维链带来的噪声影响。近日,一篇发表于arXiv的论文《TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization》提出了一种新型对齐方法,旨在解决这一痛点。
TUR-DPO的全称为“拓扑与不确定性感知直接偏好优化”。该方法的核心创新在于,它不仅关注模型回答的最终内容,更重视答案的推导过程。通过引入轻量级的推理拓扑结构,TUR-DPO能够捕捉模型在生成回答时的语义忠实度、实用性和拓扑质量,并将这些信号整合为一个校准后的不确定性信号。在此基础上,一个可学习的小型奖励函数被分解到这些信号之上,并融入不确定性加权的DPO目标函数中。整个训练过程无需强化学习,仅依赖固定或移动的参考策略,保持了DPO原有的训练简洁性。
实验部分,研究团队在多个开源7-8B参数级别的模型上进行了广泛评估,覆盖数学推理、事实问答、摘要生成以及有用/无害对话等基准测试。结果显示,与标准DPO相比,TUR-DPO在裁判胜率、语义忠实度和校准度上均有显著提升。值得注意的是,该方法在保持训练简单性的同时,避免了在线回滚(online rollouts)的复杂操作。此外,在多模态和长上下文场景中,TUR-DPO也展现出一致的性能增益。在推理密集型任务上,TUR-DPO甚至能够匹配或超越PPO的性能,同时维持操作上的简便性。
这项研究为LLM对齐领域提供了新的思路。通过将拓扑感知和不确定性加权引入偏好优化,TUR-DPO有效缓解了DPO对噪声偏好的敏感性,并提升了模型在复杂推理任务中的表现。论文作者来自多个机构,包括Abdulhady Abas Abdullah等,目前论文已提交至arXiv预印本平台,并附带相关代码和演示资源。这一方法有望在未来的AI对齐实践中得到更广泛的应用,尤其是在需要高可靠性和鲁棒性的场景中。
来源:Heooo AI工具导航