字节跳动联合港科大发布长文档LMM训练新方法
「字节跳动与港科大提出MMProLong,通过优化QA训练策略显著提升多模态大模型长文档处理能力,超越传统OCR转录方法。」
字节跳动Seed团队联合香港科技大学近日发布了一项关于多模态大语言模型(LMM)长文档训练的最新研究成果——MMProLong。该研究针对当前LMM在长文档处理中的核心痛点,提出了一种通过优化训练数据而非改动底层架构来提升模型长上下文能力的创新路径。
研究的核心发现直击传统方法的效率瓶颈:在多模态长文档训练中,针对特定目标进行问答对(QA)训练的效果显著优于传统的字符识别(OCR)转录。实验数据表明,纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力,反而会导致性能下降。而通过独立模型生成的QA对训练,能够更有效地引导模型关注文档中的关键信息,从而大幅提升长文本稳定性。
基于这一优化策略,MMProLong在仅128,000个Token的有限训练预算下,展现出极强的长文本处理能力。在输入长度达到256,000乃至512,000个Token时,模型依然没有出现性能崩溃,并在MMLongBench和MM-NIAH(大海捞针)基准测试中大幅超越InternVL3-38B等同类模型。这一结果证明了通过优化训练数据结构,可以在不增加算力成本的前提下,实现长上下文能力的跨越式提升。
此项研究为当前大模型行业提供了一条不同于DeepSeek(通过视觉信息高度压缩与重新排序升级架构)的演进路线。它表明,通过精心设计训练数据和任务目标,而非依赖复杂的架构改动,同样能有效解决LMM在长文档场景下的性能瓶颈。这种经济、高效的技术方案,为未来更长模态、多步骤智能体的开发开辟了新的可行性。
MMProLong的成功发布,不仅为多模态大模型的训练提供了新的方法论,也为行业在资源有限条件下探索高性能模型提供了重要参考。随着长文档处理需求的日益增长,这一研究成果有望推动更多实际应用场景的落地。
来源:Heooo AI工具导航