技术进展

字节跳动联合港科大发布长文档LMM训练新方法

Heooo 05月25日15时09分 12 阅读

「字节跳动与港科大提出MMProLong，通过优化QA训练策略显著提升多模态大模型长文档处理能力，超越传统OCR转录方法。」

字节跳动Seed团队联合香港科技大学近日发布了一项关于多模态大语言模型（LMM）长文档训练的最新研究成果——MMProLong。该研究针对当前LMM在长文档处理中的核心痛点，提出了一种通过优化训练数据而非改动底层架构来提升模型长上下文能力的创新路径。

研究的核心发现直击传统方法的效率瓶颈：在多模态长文档训练中，针对特定目标进行问答对（QA）训练的效果显著优于传统的字符识别（OCR）转录。实验数据表明，纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力，反而会导致性能下降。而通过独立模型生成的QA对训练，能够更有效地引导模型关注文档中的关键信息，从而大幅提升长文本稳定性。

基于这一优化策略，MMProLong在仅128,000个Token的有限训练预算下，展现出极强的长文本处理能力。在输入长度达到256,000乃至512,000个Token时，模型依然没有出现性能崩溃，并在MMLongBench和MM-NIAH（大海捞针）基准测试中大幅超越InternVL3-38B等同类模型。这一结果证明了通过优化训练数据结构，可以在不增加算力成本的前提下，实现长上下文能力的跨越式提升。

此项研究为当前大模型行业提供了一条不同于DeepSeek（通过视觉信息高度压缩与重新排序升级架构）的演进路线。它表明，通过精心设计训练数据和任务目标，而非依赖复杂的架构改动，同样能有效解决LMM在长文档场景下的性能瓶颈。这种经济、高效的技术方案，为未来更长模态、多步骤智能体的开发开辟了新的可行性。

MMProLong的成功发布，不仅为多模态大模型的训练提供了新的方法论，也为行业在资源有限条件下探索高性能模型提供了重要参考。随着长文档处理需求的日益增长，这一研究成果有望推动更多实际应用场景的落地。

# 多模态大语言模型 # 长文档训练 # 问答对 # 字节跳动 # 香港科技大学

来源：Heooo AI工具导航

热门工具

起号兽

# 生产力工具

起号兽

起号兽，你的AI短视频运营助手。智能规划内容、生成脚本、指导拍摄、优化发布，一站式帮你打造个人IP。支持抖音、快手、小红书、视频号多平台运营。

# 生产力工具访问官网

豆包

# 对话机器人

豆包

豆包是你的 AI 聊天智能对话问答助手，写作文案翻译编程全能工具。豆包为你答疑解惑，提供灵感，辅助创作，也可以和你畅聊任何你感兴趣的话题。

# 对话机器人访问官网

TRAE - IDE

# 代码助手

TRAE - IDE

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

# 代码助手访问官网