技术进展

Kimi K2.6开源模型编程挑战赛击败GPT-5.5

Heooo 05月03日18时02分 1 阅读

「开源模型Kimi K2.6在AI编程挑战赛中夺冠,击败Claude、GPT-5.5和Gemini等顶级模型,展现中国AI在代码生成领域的实力。」

在近期举办的AI编程挑战赛中,来自中国初创公司Moonshot AI的开源模型Kimi K2.6以绝对优势击败了包括Claude、GPT-5.5和Gemini在内的多家顶级模型,成为赛事焦点。这一结果不仅展示了开源模型在特定任务上的潜力,也反映了中国AI技术在全球竞技场上的快速进步。

本次挑战赛由独立研究员Rohana Rezel组织,旨在通过实时编程任务客观评估各大语言模型的性能。第12天的比赛项目为“Word Gem Puzzle”,一种滑动拼图游戏。参赛模型需要在10×10至30×30不等的矩形网格上,通过滑动字母方块形成有效英语单词。评分机制鼓励生成较长单词:少于7个字母的单词会扣分,而7个字母及以上的单词则根据长度获得正分。每个单词只能被首次发现的模型认领,模型每轮有10秒时间限制。

比赛结果令人意外:Kimi K2.6以22个匹配点、7胜1平0负的战绩夺冠;小米的MiMo V2-Pro位列第二;GPT-5.5排名第三;Claude Opus 4.7仅列第五。所有西方顶级实验室的模型均未进入前两名。值得注意的是,Nvidia的Nemotron Super 3因代码语法错误未能连接服务器,实际参赛模型共9个。

Kimi K2.6的成功策略在于其“贪婪”的滑动算法:它优先评估每一步能解锁的正分单词,选择最优移动;当没有正分单词可解锁时,则按字母顺序选择第一个合法方向。这种策略在小网格上因种子单词保存较完整而效果显著,但在大网格上因频繁的边界振荡而略有劣势。尽管如此,Kimi K2.6仍凭借整体效率赢得了比赛。

Word Gem Puzzle游戏界面

Kimi K2.6是Moonshot AI(月之暗面)于2023年成立后推出的开源模型,其权重公开可用。小米的MiMo V2-Pro目前仅提供API,但官方已确认即将发布V2.5 Pro的权重。其他参赛者包括Anthropic、OpenAI、Google和xAI的模型,以及智谱AI的GLM 5.1和DeepSeek。DeepSeek排名第八。

这一结果并非简单的“中国战胜西方”叙事,而是两款特定模型在特定任务上的胜利。但它确实表明,在编程和算法任务上,开源模型已具备与闭源商业模型竞争的实力。随着更多中国AI初创公司如Moonshot AI和小米推出高性能模型,全球AI竞赛的格局正在发生变化。

对于开发者而言,Kimi K2.6的开源特性意味着可以自由访问、修改和部署,这为社区提供了宝贵的资源。同时,MiMo V2-Pro的即将开源也预示着未来将有更多高质量模型可供选择。这场挑战赛不仅是一次技术比拼,更是对AI模型在复杂逻辑任务上能力的有力验证。

# Kimi K2.6 # 开源模型 # 编程挑战 # GPT-5.5 # Claude # Moonshot AI

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表