能力切片：大模型评估与数据优化的闭环方法

在大语言模型（LLM）的预训练过程中，模型能力始终是核心变量，却从未被直接观测。数据以预期方式塑造能力，而评估仅在事后以回顾方式揭示能力，将样本、提示、解码和评分规则压缩成一个充满噪声的单一分数。实际优化往往逆向进行：工程师首先观察到模型在某个基准测试上的失败，然后必须推断出语料库的修复方向。评估与数据使用着互不兼容的词汇——基准测试名称和逐样本正确性对应数据来源、领域和质量标签——因此这种推断通常依赖直觉，而非系统方法。

为弥合这一差距，一项来自arXiv的新研究提出了“能力切片”概念。能力切片是一组评估样本，它们共享背景条件、任务类型、求解操作和输出约束。这一单元足够精确以定位单一弱点，又足够稳定以在聚合中存活，避免了基准测试名称过于粗粒度、单个样本过于噪声化的问题。围绕这一单元，研究者构建了评估分类法、非指令数据分类法以及映射规则，形成一个闭环，将基准测试层面的失败转化为有针对性的、可测试的数据干预。

研究通过两个方向相反的案例验证了该闭环的有效性。第一个案例中，闭环排除了数据因素：持续预训练导致BBH（Big-Bench Hard）基准性能下降46.82%，但诊断追踪到问题源于单个被屏蔽的损失，而非推理能力减弱。恢复该损失后，BBH分数回升至66.44，超过原始检查点，且无需更改数据。这一结果表明，模型性能下降有时并非数据质量问题，而是训练配置中的微小错误，闭环方法能够准确识别并纠正。

第二个案例中，闭环确认了数据因素：模型在数学推理方面存在持续性弱点。通过求解操作将弱点分解为具体的失败组合，研究者构建了针对弱点的采样流程。应用该流程后，AIME2025和AIME2026的Pass@128指标分别从6.67和0.00提升至26.67。这一案例展示了如何将评估中发现的模糊弱点转化为可操作的数据策略，从而显著提升特定能力。

两个案例中，相同的未修改闭环得出了相反但正确的结论。这表明评估到数据的推断可以变得常规化、可审计且可实验验证，而非依赖直觉。该研究为LLM开发提供了一种系统化工具，帮助工程师在数据与评估之间建立可追溯的映射关系，从而更高效地优化模型能力。未来，这一闭环方法有望扩展到更多任务类型和更复杂的模型架构中，成为大模型训练与评估的标准实践。

能力切片：大模型评估与数据优化的闭环方法

相关资讯

百川智能M4模型实现主动问诊医疗AI新突破

AlgoEvolve：大模型驱动的算法交易程序元进化

振荡器架构有望将AI功耗降低千倍

多智能体LLM团队中人格特质的作用边界

AI模型网络：概念、现状与未来展望