VegAS框架提升具身智能体鲁棒性
「研究提出VegAS框架,通过验证器引导动作选择,显著提升多模态大模型在复杂任务中的泛化能力,实现最高36%性能提升。」
在人工智能领域,构建能够解决复杂现实任务的通用型具身智能体一直是一个核心挑战。尽管多模态大语言模型(MLLMs)通过强大的视觉-语言知识和思维链推理显著增强了这些智能体的推理能力,但在面对分布外场景时,它们仍然表现出脆弱性。为了应对这一问题,来自arXiv的一篇最新论文提出了一种名为“VegAS”(Verifier-Guided Action Selection)的测试时框架,旨在通过显式的验证步骤来提升基于MLLM的具身智能体的鲁棒性。
VegAS的核心思想十分直观:在推理阶段,智能体不再仅仅依赖单一解码的动作,而是先采样一组候选动作,然后使用一个生成式验证器从中挑选出最可靠的选择。这一过程无需修改底层策略,而是作为一个附加的验证层运行。然而,研究人员发现,直接使用现成的MLLM作为验证器并不会带来性能提升。这促使他们开发了一种基于大语言模型的自动数据合成策略,该策略能够自动构建包含多样化失败案例的课程式训练数据,从而让验证器在学习过程中接触到丰富且多样的潜在错误分布。
在Habitat和ALFRED这两个具身推理基准测试环境中,VegAS框架展现出了卓越的性能。实验结果表明,VegAS能够持续提升智能体的泛化能力,尤其是在最具挑战性的多目标、长时域任务中,相比强大的思维链基线方法,VegAS实现了高达36%的相对性能提升。这一成果不仅验证了“先思考再行动”策略的有效性,也为未来更可靠的具身智能体设计提供了新的思路。
从技术细节来看,VegAS的验证器训练过程尤为关键。通过LLM驱动的数据合成,系统能够自动生成大量智能体可能出错的场景,例如目标物体被遮挡、指令模糊或环境动态变化等。验证器在这些合成数据上进行训练,学习如何区分正确与错误的动作序列。这种“以错为鉴”的训练方式,使得验证器能够在真实部署中更准确地识别出潜在的高风险动作,从而引导智能体选择更稳妥的行动路径。
此外,VegAS的设计具有高度的通用性。由于它不依赖于特定的底层策略模型,因此可以轻松集成到现有的MLLM驱动的具身智能体系统中。这种即插即用的特性,使得VegAS有望成为提升各类具身AI系统鲁棒性的标准组件。未来,研究团队计划进一步探索如何优化候选动作的采样策略,以及如何将验证器与规划器更紧密地结合,以实现更高效的决策。
总的来说,VegAS框架通过引入验证器引导的动作选择机制,有效解决了MLLM在复杂环境中的可靠性问题。其核心贡献在于:一是提出了一个无需修改策略的测试时验证框架;二是开发了基于LLM的自动数据合成方法,解决了验证器训练数据不足的难题;三是在多个基准任务上取得了显著性能提升。这一研究为构建更稳健、更可靠的具身智能体提供了重要参考,也预示着AI系统在应对复杂现实任务时,将更加注重“验证”这一关键环节。
来源:Heooo AI工具导航