游戏数据成AI世界模型新金矿
「Origin Lab获800万美元种子轮融资,搭建游戏公司与AI实验室桥梁,将游戏资产转化为世界模型训练数据,解决物理世界AI数据短缺难题。」
随着人工智能开始与物理世界交互,构建能够理解物体运动、空间关系乃至物理规律的世界模型成为前沿热点。然而,与大型语言模型拥有海量互联网文本不同,世界模型所需的训练数据极度匮乏,这迫使许多实验室不得不自行拼凑数据集。一家名为Origin Lab的初创公司看到了这一缺口,并找到了一个意想不到的数据来源——电子游戏行业。
Origin Lab刚刚宣布完成800万美元种子轮融资,由Lightspeed Ventures领投,SV Angel、Eniac、Seven Stars和FPV参投,Twitch联合创始人Kevin Lin和Cruise创始人Kyle Vogt也提供了天使投资。该公司联合CEO兼联合创始人Anne-Margot Rodde表示:“现在构建的AI系统需要理解物理世界如何运作、物体如何移动,而这些数据本质上就存在于电子游戏中。”
Origin Lab的商业模式本质上是一个数据市场。在需求侧,世界模型实验室(如Yann LeCun的AMI Labs或李飞飞的World Labs)可以购买经过授权的高质量数据;在供给侧,游戏公司可以将其已有的数字资产变现,获得额外收入。而Origin Lab的核心价值在于中间层——将游戏资产转换为适合AI训练的数据格式,这可能简单到进行一次渲染,也可能复杂到自动化生成数小时的游戏实况录像。
“我们清楚地看到,游戏行业坐拥极其宝贵的数据,但缺乏连接AI实验室和游戏行业的基础设施,”Rodde说,“所以我们建造了这座桥梁。”事实上,AI实验室长期以来一直对游戏实况数据感兴趣,但许可和数据质量问题常常成为障碍。2024年12月,OpenAI的Sora视频生成模型初版曾因似乎“复现”热门游戏和主播内容而引发小风波,外界推测其训练数据包含了Twitch直播流。亚马逊也公开表示有兴趣使用Twitch内容训练模型。
Origin Lab的成功融资标志着市场的增长——不仅仅是训练数据本身,还有为大型AI实验室提供关键服务的初创企业。领投方Lightspeed的合伙人Faraz Fatemi指出,Scale.AI等数据供应商的成功让这个机遇不容忽视。“我们已经看到,服务于主要实验室的数据供应商的收入增长可以有多么迅猛,”Fatemi说,“这些实验室资金非常充裕,而它们共同的瓶颈就是数据。”
在技术层面,Origin Lab需要解决的核心挑战是保证数据的多样性、真实性和可扩展性。游戏引擎模拟的物理环境虽然高度逼真,但与真实世界仍存在差异——例如光照、材质物理特性等。因此,Origin Lab可能需要对渲染参数进行精细校准,甚至引入对抗性生成网络(GAN)来弥合模拟与现实的差距。此外,如何高效地从不同游戏引擎(Unreal、Unity、自研引擎等)中提取并标准化数据,也是技术团队必须攻克的难题。
从商业前景看,世界模型市场正处于爆发前夜。随着特斯拉Optimus、波士顿动力Atlas等人形机器人进入实际场景测试,以及自动驾驶、数字孪生等领域的持续扩张,对高质量物理世界数据的渴求只会越来越强烈。Origin Lab若能率先建立标准化数据管道,并积累足够多的游戏厂商合作伙伴,就有望成为该细分赛道的“基础设施”。
不过,挑战同样存在。游戏公司对数据资产化往往持谨慎态度,担心泄露核心玩法或美术资源。Origin Lab需要设计严格的加密与脱敏机制,确保训练数据不包含可逆向还原出游戏原始资产的指纹信息。此外,版权归属问题也需要在合同中明确界定,避免未来产生法律纠纷。
总体而言,Origin Lab的诞生反映了AI行业一个有趣的趋势:当传统数据源枯竭时,看似不相关的行业可能成为金矿。游戏行业过去二十年积累的虚拟世界,如今正成为物理世界AI的“数字孪生训练场”。这800万美元种子轮,或许只是撬动一个更大市场的开端。
来源:Heooo AI工具导航