统一智能体训练范式实现世界模型规划
「研究人员提出一种三阶段智能体训练范式,通过内化未来感知能力,使大型语言模型在长周期任务中实现基于世界模型的规划与决策。」
大型语言模型(LLM)智能体在序列决策任务中已展现出强大能力,但在长周期任务中仍存在根本性的被动响应问题。与人类在行动前进行“假设性推理”以评估潜在计划不同,标准智能体缺乏内部世界模型来模拟未来结果。针对这一局限,研究人员提出了一种统一智能体训练范式,旨在通过训练自回归模型同时生成未来状态推演和基于计划的成功估计,从而内化未来感知能力。
该研究的关键创新在于识别出“格式-能力”差距:简单地在后训练阶段对智能体进行前瞻性轨迹微调,会导致模型表面模仿前瞻行为,而缺乏真正的预测基础。为弥合这一差距,研究者设计了三阶段训练流程:第一阶段为“世界模型智能体中训练”,通过注入潜在预测能力强化策略模型;第二阶段为“格式引出监督微调”,将注入的能力结构化表达;第三阶段为“前瞻条件强化学习”,优化生成模拟的校准效果与实用性。
在搜索和数学推理任务的评估中,该范式持续优于其他训练基线。实验结果表明,在LLM智能体中实现有效的内部世界建模,需要采用“能力优先”的训练流程,以获得有基础且校准的前瞻能力。这一工作为构建真正具备规划能力的自主智能体提供了新的技术路径。
从技术细节来看,研究者提出的世界模型并非外部模块,而是完全内化于智能体的自回归生成过程中。智能体在决策时,会先“口头”描述一系列未来状态,同时输出一个类似Q值的成功概率估计。这种设计让智能体能够在实际行动前进行“思维模拟”,从而选择最优策略。
值得注意的是,研究团队特别强调了“格式引出”阶段的重要性。他们发现,即使模型通过中训练获得了预测能力,如果缺乏合适的输出格式引导,这些能力也无法有效转化为可用的规划信号。通过精心设计的监督微调数据,模型学会了如何结构化地表达其内部模拟结果,为后续的强化学习优化奠定了基础。
在强化学习阶段,研究者引入了一种基于前瞻条件的目标函数,鼓励智能体生成更准确、更可靠的未来模拟。这种训练方式不仅提升了智能体在标准测试集上的表现,还增强了其在不同任务间的泛化能力。实验数据显示,采用该三阶段范式的智能体在复杂搜索任务中的成功率提升了显著幅度,在数学推理任务中的步骤正确性也有明显改善。
该研究的另一个重要贡献在于其统一性。以往的工作往往将世界模型学习、规划与策略优化分开处理,而该范式通过单一自回归模型同时实现了这些功能。这种设计不仅简化了系统架构,还避免了多模块间的信息传递损失,使得智能体的推理过程更加连贯和高效。
总体而言,这项研究为LLM智能体从被动响应向主动规划演进提供了系统性的训练方法论。随着未来工作的推进,这种内化世界模型的能力有望在机器人控制、游戏AI、自动化科研等更广泛的领域发挥关键作用。
来源:Heooo AI工具导航