OmniMem实现流式音视频大模型高效内存压缩
「研究提出OmniMem框架,通过模态感知分配与扰动感知选择,压缩流式音视频大模型内存,在多项基准上提升准确率2-4%。」
随着多模态大语言模型在长视频理解任务中的应用日益广泛,音频-视觉大模型在处理流式输入时面临严峻的内存瓶颈。传统方法将视频帧与音频片段统一编码为令牌,导致视觉令牌数量远多于音频令牌,造成内存分配失衡,并随着推理过程线性增长。近日,来自学术界的研究团队提出了一种名为OmniMem的流式内存压缩框架,旨在解决这一核心问题。
OmniMem的核心创新在于其扰动感知的内存压缩机制。与现有压缩方案对全部令牌一视同仁不同,OmniMem首先引入模态感知的内存分配策略,将视觉上下文与音频上下文分开管理。这种设计直接应对了两种模态之间严重的令牌数量不均衡问题——视觉帧通常产生大量令牌,而音频片段相对稀疏。通过独立分配内存预算,OmniMem确保每个模态都能保留关键信息,避免视觉令牌过度占用而牺牲音频细节。
在此基础上,OmniMem通过扰动感知的内存选择机制,进一步筛选出信息丰富且非冗余的键值状态。该机制借鉴了信息论中的扰动分析思想,评估每个令牌对模型输出的影响程度,仅保留那些对长距离理解至关重要的状态。实验表明,这种选择性压缩能够在保持紧凑内存占用的同时,不损失模型对长视频中时序依赖关系的建模能力。
为了在实际部署约束下增强压缩效果,研究团队还探索了预算感知的微调方法。通过在训练过程中引入内存预算约束,模型被鼓励将有用信息整合到保留的键值缓存中。这种微调策略使得模型在固定内存上限下,能够主动优化信息存储方式,从而在推理阶段获得更优的性能表现。
在多个权威基准上的评估验证了OmniMem的有效性。研究团队使用video-SALMONN 2+和Qwen-2.5-Omni作为基础模型,在VideoMME Long、LVBench和LVOmniBench三个长视频理解数据集上进行测试。结果显示,在相同内存预算下,OmniMem相比强训练无关压缩基线,绝对准确率提升了2-4%。经过预算感知微调后,性能进一步获得1-2%的提升。这些数据表明,OmniMem在保持流式推理效率的同时,显著改善了模型对长视频内容的理解质量。
从技术角度看,OmniMem的贡献在于将模态感知与扰动感知两种思想有机结合。模态感知解决了多模态场景下的资源分配失衡,而扰动感知则确保了压缩过程的信息保真度。这种组合方案为流式多模态大模型的部署提供了一条实用路径,尤其适用于需要实时处理音视频流的应用场景,如智能监控、视频会议分析与直播内容理解。
当前,多模态大模型正朝着更长的上下文窗口和更丰富的感知能力演进。OmniMem的研究表明,通过精细化的内存管理,可以在不牺牲模型能力的前提下大幅降低计算资源需求。未来,该框架有望进一步扩展到更多模态(如文本、触觉等),并探索与量化、剪枝等传统压缩技术的融合,从而推动多模态AI在边缘设备上的落地应用。
来源:Heooo AI工具导航