开源项目

京东开源实时视频视觉语言模型

Heooo 06月22日22时33分 4 阅读

「京东开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction,实现“边看边说”的主动交互能力。」

京东官方近日宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,并获得vLLM-Omni的day-0原生支持。该模型让大模型从传统的“一问一答”模式走向“边看边说”,开发者基于这套框架可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。

JoyAI-VL-Interaction在技术层面实现了三重突破。首先,它具备主动判断能力,而非被动回答。传统模型通常需要等待用户发起问题才开始处理当前画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话、什么时候该沉默。其次,它支持实时响应,而非事后总结。传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景中,延迟几秒就会影响体验和价值。JoyAI-VL-Interaction面向正在发生的视频流,画面变化时就能立即响应。第三,它具备适时智能体委托能力,能够在保持观察的同时进行交互。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或Agent处理,前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。

在功能支持方面,JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入,同时也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块都可以按需替换,开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。该模型既可以用于研究,也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等实时AI助手。

在评测中,JoyAI-VL-Interaction覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在与视觉触发的主动响应、实时性高度相关的58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%,对比Gemini视频通话助手总体胜率87.9%。

京东已将模型和数据集开源至Hugging Face平台,开发者可获取完整代码和训练数据,快速上手构建自己的实时视频交互应用。这一开源举措将有力推动实时视频AI技术的普及和创新。

# 京东 # 开源 # 实时视频 # 视觉语言模型 # AI助手

来源:Heooo AI工具导航