技术进展

开源模型Kimi K2.6编程挑战夺冠

Heooo 05月04日06时01分 1 阅读

「在AI编程挑战赛中,开源模型Kimi K2.6击败Claude、GPT-5.5等顶尖模型,凭借贪心策略和高效代码夺得第一。」

在近日举办的AI编程挑战赛中,一款来自中国初创公司Moonshot AI的开源模型Kimi K2.6以出色表现击败了包括Claude、GPT-5.5和Gemini在内的多款主流模型,夺得冠军。这一结果引发了开发者社区的广泛关注,展示了开源模型在特定任务上的强大竞争力。

本次挑战赛名为“Word Gem Puzzle”,是一项实时编程任务,要求参赛模型在限定时间内通过滑动字母瓷砖形成有效英文单词。比赛共设五个网格尺寸(10×10、15×15、20×20、25×25和30×30),每个模型需与对手进行五轮对决,每轮限时10秒。评分机制鼓励生成长单词,短单词则会被扣分。例如,五字母单词扣一分,三字母单词扣三分,而七字母及以上单词按长度减六计分,八字母单词得两分。每个单词只能被首次发现的模型得分,增加了策略性。

最终,Kimi K2.6以22分的总成绩排名第一,战绩为7胜1平0负。小米的MiMo V2-Pro位居第二,GPT-5.5排名第三,而Anthropic的Claude Opus 4.7仅列第五。所有西方主流实验室的模型均未进入前两名。值得注意的是,Nvidia的Nemotron Super 3因代码语法错误未能连接服务器,实际只有9个模型参赛。

Kimi K2.6的成功离不开其独特的策略。根据比赛日志,该模型采用了贪心算法:每次移动前评估所有可能的操作,选择能解锁最多正分单词的移动,若无正分单词,则按字母顺序选择第一个合法方向。这种策略在中小网格上表现优异,因为种子单词保留较多,贪心搜索能快速找到高价值单词。但在30×30的大网格上,由于种子单词几乎被完全打乱,模型偶尔会出现边缘振荡问题,即空白格在相邻位置来回移动,导致效率下降。不过,整体上Kimi K2.6仍以压倒性优势获胜。

Kimi K2.6是Moonshot AI于2023年成立后推出的开源模型,权重公开可用。而MiMo V2-Pro目前仅提供API,但小米已确认其V2.5 Pro模型即将开源。这一结果并非简单的“中国超越西方”,而是两个特定模型在特定任务上的胜利。例如,中国另一家实验室智谱AI的GLM 5.1排名第四,而DeepSeek仅列第八。

此次比赛不仅展示了Kimi K2.6在编程任务上的潜力,也凸显了开源模型在特定场景下的优势。随着更多开源模型加入竞争,AI编程领域的格局或将进一步变化。开发者可以期待更多类似挑战,推动模型在真实场景中的表现优化。

# Kimi K2.6,开源模型,编程挑战,AI竞赛,Moonshot AI

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表