蚂蚁灵波LingBot-VA论文被机器人顶会RSS2026接收

近日，蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议Robotics: Science and Systems（RSS）2026接收。RSS是全球机器人领域公认的顶级学术会议之一，长期关注机器人学习、控制、感知、规划与系统等前沿方向，录用标准严格。论文被RSS接收，意味着相关研究不仅具有学术创新性，也获得了国际机器人研究共同体的高度认可。

这项研究的核心，是让机器人不只是完成动作，还能够在行动前预测世界会如何变化。论文提出了面向机器人控制的因果世界建模框架，并将其落地为全球首个开源的自回归视频-动作世界模型LingBot-VA。该模型能够在机器人执行任务的过程中，持续预测环境变化，并根据预测结果生成下一步动作指令，使机器人具备类似人类“边观察、边判断、边行动”的能力。

对机器人来说，真正困难的并不只是完成动作，还需要理解这个动作会带来什么变化。例如，拿起杯子后桌面会怎样变化，推动抽屉后物体位置会怎样改变。LingBot-VA的核心突破，正是把这种对未来变化的预测能力引入机器人控制，让机器人先预测世界接下来会变成什么样，再根据预测结果决定应该如何行动。

这也是论文强调“因果世界建模”的原因。真实物理世界沿时间向前，因此机器人在预测未来时，也必须按照真实时间顺序一步步向前推演。LingBot-VA将这一因果关系写入模型结构，每一步预测都只依据此前的观察和动作，按时间顺序展开。这样一来，模型生成的就不仅仅是一段展示未来的视频，而是一条可用于机器人控制决策的因果轨迹。这也让模型具备了更强的长期记忆能力，对于完成长时序、多步骤的真实任务尤其重要。

在技术实现上，LingBot-VA采用Mixture-of-Transformers（MoT）架构，将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制，在任务执行过程中持续接收真实环境反馈，减少长时间预测中的误差累积。

论文在仿真基准和真实机器人任务上系统验证了LingBot-VA的性能。在RoboTwin2.0的50个双臂操作任务中，LingBot-VA在Easy和Hard设置下分别取得92.0%和91.1%的平均成功率；在LIBERO基准上达到98.5%。在真实世界评测中，面对长时序、高精度以及柔性与关节物体操控这三大类6项高难度挑战，LingBot-VA仅需50条真实示范数据即可完成适配，整体成功率较业界基线π0.5提升超过20个百分点，展现出良好的数据效率和泛化能力。

LingBot-VA已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在Hugging Face和GitHub访问下载。论文链接：https://arxiv.org/abs/2601.21998，项目主页：https://technology.robbyant.com/lingbot-va。

蚂蚁灵波LingBot-VA论文被机器人顶会RSS2026接收

相关资讯

Wiola架构：高效小语言模型的原创设计

小型语言模型在编程辅导中的基准测试

ASK+框架：不确定性门控提升LLM辅助强化学习

客服AI新架构：困难路由控制提升操作可靠性

神经符号框架PACE生成可行反事实解释