技术进展

Kimi K2.6编程挑战击败GPT-5.5等顶尖模型

Heooo 05月03日13时53分 1 阅读

「在AI编程竞赛的Word Gem Puzzle挑战中,Moonshot AI的开源模型Kimi K2.6击败GPT-5.5、Claude等顶尖模型夺冠」

近日,一场实时AI编程竞赛的结果引发AI圈关注:来自Moonshot AI的开源权重模型Kimi K2.6,在Word Gem Puzzle挑战中击败GPT-5.5、Claude Opus 4.7、Gemini等顶尖大模型,斩获冠军。这场竞赛由Rohana Rezel发起,旨在通过客观评分体系对比主流大语言模型的编程与逻辑推理能力。

本次竞赛的Day12项目为Word Gem Puzzle,这是一款滑动字母拼图任务,考验模型的空间推理、单词识别与决策规划能力。竞赛设置了5种不同尺寸的矩形网格(10×10至30×30),每个网格填充字母瓷砖与一个空白位,模型可滑动相邻瓷砖至空白位,并在任意时刻提取水平或垂直方向的合法英文单词(对角线、反向单词不计入)。

评分规则设计颇具针对性:7个字母及以上的单词可获得“长度-6”的分数,例如8字母单词得2分;而7字母以下的单词会被扣分,5字母单词扣1分,3字母单词扣3分。此外,同一单词仅能被第一个识别的模型获取,后续模型无法重复得分。每对模型需完成5轮对决,对应5种网格尺寸,每轮限时10秒。

网格生成机制也为竞赛增加了难度梯度:初始以填字游戏布局植入真实词典单词,剩余单元格按Scrabble字母频率填充,最后打乱空白位,且网格越大打乱程度越高。10×10网格中多数种子词保留完整,而30×30网格中几乎没有种子词留存,这一差异对模型的策略适配能力提出了极高要求。

本次共有10款模型参赛,但英伟达的Nemotron Super 3因代码存在语法错误,未能连接到游戏服务器,实际仅9款模型完成竞赛。最终结果超出多数人预期:Kimi K2.6以22个匹配点、7胜1平0负的战绩夺冠;小米的MiMo V2-Pro位居第二;OpenAI的GPT-5.5排名第三;Anthropic的Claude Opus 4.7仅列第五。值得注意的是,西方前沿实验室的所有模型均未进入前两名,而中国厂商的另一款模型——智谱AI的GLM 5.1位列第四,DeepSeek则排在第八。竞赛发起者强调,这并非“中国模型击败西方模型”的笼统结论,而是两款特定模型在本次任务中展现出了更优性能。

从移动日志可以看出Kimi K2.6的制胜逻辑:它采用了贪婪式决策策略,每次都会优先评估所有可能移动能解锁的正分值单词,选择收益最高的执行;当没有能解锁正分单词的移动时,它会按字母顺序选择第一个合法方向滑动。不过这一策略也存在局限性:在种子词保留较多的小网格中,这种贪婪选择偶尔会导致无效的边缘震荡——即空白位在两个位置间来回弹跳,无法推进任务。但在种子词几乎消失的大网格中,这种快速寻找正分单词的策略反而发挥了优势,帮助Kimi在复杂环境中高效积累分数。

Kimi K2.6作为一款开源权重模型,其在顶尖竞赛中的夺冠表现,不仅证明了开源AI模型在特定任务上的竞争力,也为AI开发者提供了可研究、可微调的优秀范例。而小米的MiMo V2-Pro目前仅开放API访问,官方已宣布其新版本V2.5 Pro的权重即将公开,这意味着开源AI生态将迎来更多高性能选项,推动大模型技术在编程、推理等领域的进一步迭代。

# AI编程挑战 # 开源大模型 # Kimi K2.6

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表