LLM能否超越传统超参数优化算法

在机器学习领域，超参数优化（HPO）一直是提升模型性能的关键环节。传统上，研究人员依赖贝叶斯优化、CMA-ES等经典算法来寻找最佳超参数组合。然而，随着大语言模型（LLM）能力的快速提升，一个自然的问题浮现出来：LLM能否取代这些经典算法，甚至做得更好？近期一篇来自arXiv的预印本论文《Can LLMs Beat Classical Hyperparameter Optimization Algorithms?》对此进行了系统性的探索。

该研究利用名为autoresearch的代码库作为测试平台。autoresearch允许一个LLM智能体通过直接编辑训练代码来优化超参数，这为LLM提供了极大的灵活性——它不仅可以调整参数值，还能修改训练流程本身。研究团队在小语言模型的超参数调优任务上，将经典HPO算法（如CMA-ES和TPE）与基于LLM的方法进行了比较，所有方法均在固定的计算预算下运行。

实验结果显示，当在autoresearch上定义固定的搜索空间时，经典方法如CMA-ES和TPE始终优于LLM智能体。研究者指出，在此类任务中，避免内存溢出（OOM）失败比搜索多样性更为关键。经典算法因其稳健的搜索策略和状态管理能力，能够更有效地规避这类工程性问题。即使允许LLM直接编辑源代码，虽然缩小了与经典方法的差距，但并未完全反超——即便是当时最先进的模型，如Claude Opus 4.6和Gemini 3.1 Pro Preview，也未能做到。

研究进一步分析了LLM表现不佳的原因。作者观察到，LLM在跨试验（trial）追踪优化状态方面存在明显困难。它们往往缺乏对先前尝试结果的系统记忆，导致搜索过程缺乏连贯性和方向性。相比之下，经典方法虽然缺乏LLM所拥有的领域知识，但它们在状态维护和搜索策略上更为成熟。

为了融合两者的优势，研究团队提出了一种名为Centaur的混合方法。Centaur将CMA-ES的可解释内部状态（包括均值向量、步长和协方差矩阵）共享给一个LLM。LLM利用这些结构化信息来指导后续的搜索方向，而CMA-ES则负责维护搜索的稳定性和全局性。实验结果表明，Centaur在所有测试方法中取得了最佳性能。值得注意的是，一个仅有0.8B参数的LLM在Centaur框架下就足以超越所有纯经典方法和纯LLM方法。

研究者还探讨了无约束代码编辑场景下的表现。他们发现，当允许LLM自由编辑代码时，需要更大规模的模型才能与经典方法竞争。这表明，在缺乏搜索结构约束的情况下，LLM需要更强的推理能力才能有效探索超参数空间。此外，论文还分析了搜索多样性、模型规模从0.8B到前沿模型的扩展规律，以及Centaur中LLM提议试验比例的影响。

综合来看，这项研究的核心结论是：LLM在超参数优化中并非经典算法的替代品，而是有效的补充。LLM最擅长利用领域知识和上下文理解来提出有洞察力的调整方向，而经典算法则擅长稳健的搜索和状态管理。两者结合——如Centaur所示——能够实现1+1>2的效果。这一发现不仅为自动机器学习（AutoML）领域提供了新的思路，也暗示了未来AI系统设计中人机协作或模型-算法协作的潜在方向。

LLM能否超越传统超参数优化算法

相关资讯

FineServe数据集揭示全球LLM服务负载特征

机密GPU推理性能基准测试：H100与Intel TDX

BatchDAG：用LLM规划执行图实现企业级数据分析

大语言模型展现稳定风险态度

RLHF偏好数据中的标注者状态偏差审计框架