技术进展

腾讯混元联合多机构发布MMAE基准,音频编辑能力不足5%

Heooo 06月08日21时00分 3 阅读

「腾讯混元联合上海交大等机构推出MMAE基准测试,评估AI音频编辑能力。结果显示当前模型精确匹配率低于5%,凸显技术短板。」

人工智能在音频生成领域已取得显著进展,但“编辑”现有音频的能力仍面临巨大挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学、新加坡南洋理工大学、天津大学、北京大学、复旦大学等多家顶尖科研机构,共同推出了MMAE(Massive Multitask Audio Editing Benchmark)——首个针对通用指令驱动音频编辑的大规模多任务基准测试集。这一发布为AI音频编辑领域提供了系统性评估标准,凸显了当前技术在精准修改方面的明显短板。

传统音频AI多聚焦于从文本或提示生成新内容,而MMAE基准的核心在于要求模型理解现有音频片段,并根据自然语言指令进行精准修改:仅改变需要调整的部分,保持其他内容完全不变。这种“编辑而非重构”的能力,对音频保真度、指令遵循性和上下文理解提出了更高要求,更贴近真实应用场景,如播客后期处理、音乐混音或语音个性化定制。

测试显示,当前主流模型在精确匹配率(Exact Match Rate,EMR)上普遍低于5%,揭示出可靠音频编辑技术仍存在重大差距。这意味着AI在实际编辑任务中容易出现过度修改、遗漏指令或破坏原始音质等问题。

MMAE基准设计全面而严谨,主要包含以下核心要素:2000个高保真样本,全部来源于真实世界场景,确保评估的实用性和多样性;17741项细粒度评估指标,提供详尽的rubric评分体系,实现客观量化;7种模态设置,涵盖声音、音乐、语音及其混合形式,支持复杂音频环境测试;6级任务复杂度,从基础修改逐步升级至多跳推理和多轮编辑,全面考察模型能力边界;8种操作类型,支持局部与全局不同粒度的编辑操作,挑战模型的精细控制水平。

MMAE不仅是技术评估工具,更是推动音频AI从“生成式”向“编辑式”转型的重要里程碑。它为研究者和开发者提供了统一标尺,有望加速下一代音频编辑模型的迭代。随着多模态大模型的快速发展,精准音频编辑将在内容创作、影视后期、无障碍辅助等领域发挥关键作用。腾讯混元等机构的此次合作,展现了中国AI研究在音频领域的领先布局。业界期待更多开源资源和后续模型跟进,共同填补这一技术空白。

# 腾讯混元 # 音频编辑 # MMAE基准 # 多模态AI # 技术评估

来源:Heooo AI工具导航