美团开源LongCat-Video-Avatar1.5,全面超越闭源模型
「美团龙猫团队开源LongCat-Video-Avatar1.5数字人视频生成模型,在唇形同步、多人互动、推理效率上全面领先,实现商用级落地。」
美团龙猫大模型团队近日正式开源了商用级数字人视频生成模型——LongCat-Video-Avatar1.5。该版本实现了从开源SOTA向商业级实际应用的全面跨越,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理等核心维度上完成了全面跃升。
针对传统数字人视频常见的“抖动、畸变、高延迟”等痛点,LongCat-Video-Avatar1.5进行了三大核心能力升级。首先,在基础体验商用化方面,模型将音频特征提取编码器从Wav2Vec2升级为Whisper-large,凭借更大的参数量和更丰富的多语言先验,模型能细致捕捉音素变化与发音节奏,使长句、快语速、歌唱等复杂音频下的唇动更精准,同时实现面部、头部、肢体动作与语音的自然协同,大幅减少了长视频中常见的跳帧和身份漂移。
其次,在强开放域泛化方面,团队构建了包含“离线标注”与“在线验证”的多阶段数据处理流程,并针对性注入了多人数据、静默数据和情绪数据三类增强数据。通过主动说话人检测消除多人场景下的音画歧义,筛选未说话视频让模型学习无语音状态下的自然微表情,结合帧级情绪识别精筛注入情绪变化,使模型能够稳定处理真人、虚拟偶像、动漫及动物等多类主体。
第三,在手部与连续性专项对齐方面,针对电商直播、产品展示等需要频繁露手的场景,模型引入了GRPO(人类偏好对齐),将奖励信号细化到逐帧层面,并加入首帧手部检测机制,显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业难题。
在推理效率上,LongCat-Video-Avatar1.5采用了DMD(分布匹配蒸馏)技术,将原本需要50步的生成过程压缩至8步。同时,团队用“一个共享基础模型+多个LoRA适配器”的架构替代了传统的三模型并行方案,大幅释放显存。实际测试中,模型实现了约15倍的推理效率提升,生成一段10秒的视频仅需约1分钟,告别了昂贵算力门槛。
基于EvalTalker评测基准,770名评估者与10名领域专家对涵盖新闻、教育、娱乐等复杂场景的视频进行了结构化质量分析。数据显示,LongCat-Video-Avatar1.5在多项核心指标上表现惊艳:用户偏好胜率相比Kling Avatar2.0达65.9%,相比OmniHuman-1.5达61.1%,相比HeyGen达54.3%;单人场景得分3.336,多人场景得分2.730,均显著高于对比模型;主体变形率仅为23.1%,背景变形率仅9.4%,跳帧问题率低至0.8%;面部-身体同步问题率降至5.1%,唇形同步问题率降至29.8%,全面优于传统商业系统。
美团龙猫大模型团队表示,LongCat-Video-Avatar1.5的开源不仅是版本的更新,更是向全球开发者和创作者发出的共建邀请,希望该模型能成为一个可验证、可改进的技术基座,共同拓展数字人视频的真实应用边界。
来源:Heooo AI工具导航