多模态大模型音频视觉信息流机制揭秘

多模态大语言模型（MLLMs）能够同时处理音频和视觉信息，但其内部如何融合这两种信号并最终形成决策，一直是一个黑箱。近日，一篇发表于arXiv的论文《From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs》首次系统性地揭示了音频-视觉大模型（AVLLMs）内部的信息流机制，为理解多模态感知与推理提供了全新视角。

研究团队聚焦于音频-视觉大模型（AVLLMs），通过追踪音频和视觉令牌在网络中的传播路径，分析了两种输入配置下的信息流动模式：一是常规的音频-视觉视频输入，二是多个交错排列的音频-视觉项目输入。研究发现，在处理音频-视觉视频时，AVLLMs遵循了视觉语言模型（VLMs）和视频大模型（VideoLLMs）中已建立的顺序信息流路径。音频和视觉信息的贡献比例并非固定，而是与任务对每种模态的依赖程度成正比。例如，在需要更多依赖音频线索的任务中，音频令牌的贡献会显著增强；反之，视觉主导的任务则让视觉令牌占据更大权重。这种动态调整机制使得模型能够灵活适应不同场景。

更引人注目的是，当面对多个交错排列的音频-视觉项目时，信息流动路径发生了根本性转变——从顺序流转向并行流。这意味着模型能够同时处理来自不同模态的多个信息流，而非依次处理。这种并行处理能力可能解释了AVLLMs在复杂多模态任务中的高效性。研究还发现，一旦音频、视觉或其他类型令牌的信息被成功传递到大语言模型（LLM）层，这些令牌可以被安全丢弃，而不会对模型的最终预测产生显著负面影响。在某些情况下，丢弃这些令牌甚至能带来轻微的精度提升。这一发现为更高效的推理提供了理论依据：通过移除冗余令牌，可以减少计算开销，同时保持甚至优化模型性能。

为了验证结论的普适性，研究团队在多个模型和规模上进行了测试，包括Qwen2.5-Omni和Video-SALMONN2 Plus，参数量从3B到7B不等。结果表明，上述信息流模式在不同架构和规模下均保持一致，这暗示了AVLLMs中可能存在某种通用的信息路由机制。论文进一步提出了关于这些流动结构为何涌现的假设，为未来模型设计提供了理论指导。

这项研究不仅首次描绘了AVLLMs内部如何协调声音与视觉信号的完整图景，还为多模态大模型的可解释性、设计优化和效率提升奠定了基础。随着音频-视觉应用在智能助手、自动驾驶、视频理解等领域的普及，理解其内部工作机制将有助于开发更可靠、更高效的下一代多模态系统。未来，研究人员可以基于这些发现，设计更精细的模态融合策略，甚至通过主动控制信息流来提升特定任务的性能。