MiniMax M3开源,多模态大模型性能登顶
技术进展

MiniMax M3开源,多模态大模型性能登顶

Heooo 06月16日13时46分 2 阅读

「稀宇科技开源原生多模态旗舰模型MiniMax M3,总参数428B,激活23B,综合性能荣登开源榜首,编码能力显著提升。」

国内人工智能领域的知名科技公司稀宇科技MiniMax,于近日正式宣布开源其原生多模态旗舰模型MiniMax M3。此前官方已提前向业界开放了该模型的权重,并同步发布了极具技术含量的稀疏注意力机制论文,引发了开源社区的广泛关注。

作为MiniMax倾力打造的旗舰级模型,M3拥有高达428B的总参数量,其中激活参数为23B。值得一提的是,该模型是行业内首个从底层训练初期,就直接进行多模态混合训练的开源大模型。这种端到端的训练策略,使得M3在图像、文本、语音等模态的理解与生成上实现了深度协同,避免了传统模型后期拼接带来的信息损耗。

MiniMax M3开源,多模态大模型性能登顶

凭借着卓越的技术架构,M3在发布后的短短两周内,便在权威的全球综合智能指数排行榜上斩获了开源模型的第一名。针对发布初期访问量暴增导致的体验延迟,官方已经将模型的输出速度从最初的30 TPS优化提升至80 TPS,未来还将继续提速。这一速度的提升,意味着开发者在使用M3进行实时推理或构建交互式应用时,将获得更为流畅的体验。

在多项高难度的编码与智能体能力评测中,MiniMax M3均展现出了行业顶尖的技术水准。它不仅具备自主拆解复杂任务的能力,还能熟练调用各类外部工具进行多步推理。例如,在需要多步骤逻辑推理、API调用或数据库查询的复杂场景中,M3能够自主规划执行路径,并完成最终交付。

与传统模型相比,M3的代码编写能力实现了质的飞跃。官方表示其输出的代码旨在直接达到可交付的标准,而非“勉强能跑但仍需人工大量修改”的半成品,这将极大地解放开发者的生产力。对于企业级应用而言,这意味着从原型到产品的周期有望大幅缩短,进一步降低AI应用的门槛。

M3的开源策略也引发了业界的广泛讨论。通过开放权重和稀疏注意力机制论文,MiniMax不仅展示了自身的技术积累,也为全球研究者和开发者提供了宝贵的参考样本。开源社区可以基于M3进行二次开发、微调或研究稀疏注意力在长文本、高分辨率图像等场景下的优化潜力。

总体来看,MiniMax M3的发布标志着国产多模态大模型在开源领域迈出了重要一步。其综合性能、编码能力以及响应速度的提升,都为AI技术的普惠化应用注入了新的活力。未来,随着更多开发者基于M3进行创新,多模态AI在智能办公、创意设计、代码辅助等领域的落地速度有望进一步加快。

# MiniMax # M3 # 多模态大模型 # 开源 # 稀疏注意力

来源:Heooo AI工具导航