京东开源实时视频视觉语言模型

京东官方近日宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，并获得vLLM-Omni的day-0原生支持。该模型让大模型从传统的“一问一答”模式走向“边看边说”，开发者基于这套框架可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。

JoyAI-VL-Interaction在技术层面实现了三重突破。首先，它具备主动判断能力，而非被动回答。传统模型通常需要等待用户发起问题才开始处理当前画面，而JoyAI-VL-Interaction可以持续观察视频流，自主判断什么时候该说话、什么时候该沉默。其次，它支持实时响应，而非事后总结。传统视频理解更多是上传完整视频后再分析，但在安防预警、实时翻译、直播解说、操作指导等场景中，延迟几秒就会影响体验和价值。JoyAI-VL-Interaction面向正在发生的视频流，画面变化时就能立即响应。第三，它具备适时智能体委托能力，能够在保持观察的同时进行交互。当模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或Agent处理，前台模型继续观察现场，后台模型处理复杂任务，结果返回后再自然接回对话。

在功能支持方面，JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入，同时也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块都可以按需替换，开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。该模型既可以用于研究，也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等实时AI助手。

在评测中，JoyAI-VL-Interaction覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在与视觉触发的主动响应、实时性高度相关的58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%，对比Gemini视频通话助手总体胜率87.9%。

京东已将模型和数据集开源至Hugging Face平台，开发者可获取完整代码和训练数据，快速上手构建自己的实时视频交互应用。这一开源举措将有力推动实时视频AI技术的普及和创新。

京东开源实时视频视觉语言模型

相关资讯

通义实验室开源统一科学大模型LOGOS

阿里开源LOGOS模型打破科学语言壁垒

微软开源SwiftStreamingMarkdown渲染库

小米发布全屋智能AI开源方案Miloco 2.0

智谱AI开源GLM-5.2模型，主打1M无损上下文