蚂蚁灵波LingBot-VA论文被机器人顶会RSS2026接收
技术进展

蚂蚁灵波LingBot-VA论文被机器人顶会RSS2026接收

Heooo 05月25日15时09分 1 阅读

「蚂蚁灵波与港科大合作的因果世界建模论文被RSS2026接收,提出LingBot-VA模型,让机器人边预测边行动。」

近日,蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议Robotics: Science and Systems(RSS)2026接收。RSS是全球机器人领域公认的顶级学术会议之一,长期关注机器人学习、控制、感知、规划与系统等前沿方向,录用标准严格。论文被RSS接收,意味着相关研究不仅具有学术创新性,也获得了国际机器人研究共同体的高度认可。

这项研究的核心,是让机器人不只是完成动作,还能够在行动前预测世界会如何变化。论文提出了面向机器人控制的因果世界建模框架,并将其落地为全球首个开源的自回归视频-动作世界模型LingBot-VA。该模型能够在机器人执行任务的过程中,持续预测环境变化,并根据预测结果生成下一步动作指令,使机器人具备类似人类“边观察、边判断、边行动”的能力。

LingBot-VA模型示意图

对机器人来说,真正困难的并不只是完成动作,还需要理解这个动作会带来什么变化。例如,拿起杯子后桌面会怎样变化,推动抽屉后物体位置会怎样改变。LingBot-VA的核心突破,正是把这种对未来变化的预测能力引入机器人控制,让机器人先预测世界接下来会变成什么样,再根据预测结果决定应该如何行动。

这也是论文强调“因果世界建模”的原因。真实物理世界沿时间向前,因此机器人在预测未来时,也必须按照真实时间顺序一步步向前推演。LingBot-VA将这一因果关系写入模型结构,每一步预测都只依据此前的观察和动作,按时间顺序展开。这样一来,模型生成的就不仅仅是一段展示未来的视频,而是一条可用于机器人控制决策的因果轨迹。这也让模型具备了更强的长期记忆能力,对于完成长时序、多步骤的真实任务尤其重要。

在技术实现上,LingBot-VA采用Mixture-of-Transformers(MoT)架构,将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制,在任务执行过程中持续接收真实环境反馈,减少长时间预测中的误差累积。

论文在仿真基准和真实机器人任务上系统验证了LingBot-VA的性能。在RoboTwin2.0的50个双臂操作任务中,LingBot-VA在Easy和Hard设置下分别取得92.0%和91.1%的平均成功率;在LIBERO基准上达到98.5%。在真实世界评测中,面对长时序、高精度以及柔性与关节物体操控这三大类6项高难度挑战,LingBot-VA仅需50条真实示范数据即可完成适配,整体成功率较业界基线π0.5提升超过20个百分点,展现出良好的数据效率和泛化能力。

LingBot-VA已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在Hugging Face和GitHub访问下载。论文链接:https://arxiv.org/abs/2601.21998,项目主页:https://technology.robbyant.com/lingbot-va。

# 蚂蚁灵波 # LingBot-VA # RSS2026 # 世界模型 # 机器人控制

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表