腾讯混元联合多机构发布MMAE基准，音频编辑能力不足5%

人工智能在音频生成领域已取得显著进展，但“编辑”现有音频的能力仍面临巨大挑战。近日，腾讯混元（Tencent Hy）联合上海交通大学、新加坡南洋理工大学、天津大学、北京大学、复旦大学等多家顶尖科研机构，共同推出了MMAE（Massive Multitask Audio Editing Benchmark）——首个针对通用指令驱动音频编辑的大规模多任务基准测试集。这一发布为AI音频编辑领域提供了系统性评估标准，凸显了当前技术在精准修改方面的明显短板。

传统音频AI多聚焦于从文本或提示生成新内容，而MMAE基准的核心在于要求模型理解现有音频片段，并根据自然语言指令进行精准修改：仅改变需要调整的部分，保持其他内容完全不变。这种“编辑而非重构”的能力，对音频保真度、指令遵循性和上下文理解提出了更高要求，更贴近真实应用场景，如播客后期处理、音乐混音或语音个性化定制。

测试显示，当前主流模型在精确匹配率（Exact Match Rate，EMR）上普遍低于5%，揭示出可靠音频编辑技术仍存在重大差距。这意味着AI在实际编辑任务中容易出现过度修改、遗漏指令或破坏原始音质等问题。

MMAE基准设计全面而严谨，主要包含以下核心要素：2000个高保真样本，全部来源于真实世界场景，确保评估的实用性和多样性；17741项细粒度评估指标，提供详尽的rubric评分体系，实现客观量化；7种模态设置，涵盖声音、音乐、语音及其混合形式，支持复杂音频环境测试；6级任务复杂度，从基础修改逐步升级至多跳推理和多轮编辑，全面考察模型能力边界；8种操作类型，支持局部与全局不同粒度的编辑操作，挑战模型的精细控制水平。

MMAE不仅是技术评估工具，更是推动音频AI从“生成式”向“编辑式”转型的重要里程碑。它为研究者和开发者提供了统一标尺，有望加速下一代音频编辑模型的迭代。随着多模态大模型的快速发展，精准音频编辑将在内容创作、影视后期、无障碍辅助等领域发挥关键作用。腾讯混元等机构的此次合作，展现了中国AI研究在音频领域的领先布局。业界期待更多开源资源和后续模型跟进，共同填补这一技术空白。

腾讯混元联合多机构发布MMAE基准，音频编辑能力不足5%

相关资讯

AnovaX：本地多智能体语音助手新范式

证据链评估提升大模型事实核查可靠性

ToolDNS：将DNS改造为AI工具发现协议

多智能体数学推理中评审精度不等于纠错采纳率

前沿AI系统管理员基准测试揭示权力寻求倾向