机器人训练数据成AI新瓶颈,XDOF获7000万美元融资
「AI实验室竞相开发物理世界机器人,但训练数据匮乏成瓶颈。初创公司XDOF获7000万美元融资,专攻机器人训练数据采集、标注与管道建设。」
随着OpenAI等顶级AI实验室重新启动机器人项目,一个关键问题浮出水面:机器人训练数据严重不足。与语言模型可以依赖互联网海量文本不同,机器人需要的是物理交互数据,这类数据几乎不存在。这一缺口催生了全新的基础设施商业模式,初创公司XDOF正是看准了这一机遇。
XDOF今日正式走出隐身模式,宣布获得7000万美元融资,投资方包括Thrive Capital、Spark Capital、a16z、Lux和WndrCo。这家拥有约60名员工的公司,致力于构建数据管道、采集工具和标注系统,为前沿实验室和机器人公司提供他们难以自行搭建的数据基础设施。
“所有顶级实验室都在尝试进军机器人领域,”XDOF联合创始人兼CEO Philippe Wu表示,“我们已经看到在语言模型竞赛中落后的后果……没人想重蹈覆辙,而物理AI正是下一个前沿。”Wu在加州大学伯克利分校攻读博士期间就亲身遇到了这个问题——他的研究聚焦于让机器人从大规模数据集中学习技能,但根本找不到足够的数据。
“我们当时没有大规模数据可用,”Wu告诉TechCrunch,“这成了一个先有鸡还是先有蛋的问题——在考虑如何训练机器人基础模型之前,我们首先需要实际采集数据。”为了突破这一瓶颈,Wu与后来的XDOF联合创始人兼CTO Fred Shentu共同开发了GELLO项目,这是一套低成本遥操作系统,让人类操作员能够控制机械臂来生成训练数据。这项研究后来成为机器人领域极具影响力的论文,因为大量研究者都面临类似的数据瓶颈。
Wu、Shentu和第三位联合创始人兼COO Nemo Jin于2024年10月创立XDOF,旨在为机器人模型公司提供完整的数据生态系统。公司深知单纯提供数据是条死胡同,因此同时专注于数据清洗、工具开发和标注服务,打造一个自我强化的机器人训练数据反馈循环。作为起点,XDOF正与加州大学伯克利分校AI研究实验室合作,发布据称是规模最大的高质量机器人训练数据集。
目前XDOF已与20家客户合作,其中包括多个前沿AI实验室,但Wu拒绝透露具体名称。他表示,收集机器人训练数据是一项“肮脏、不体面”的工作——需要大量人工操作、环境适配和数据清洗。YouTube视频和零工拍摄的素材分辨率低,难以与物理世界对齐,这正是XDOF试图解决的核心痛点。
随着物理AI竞赛的升温,机器人训练数据基础设施正成为新的投资热点。XDOF的融资规模和客户基础表明,市场对这一垂直领域的需求正在快速增长。未来,机器人能否像大语言模型一样实现能力飞跃,或许就取决于这些数据基础设施公司的成败。
来源:Heooo AI工具导航