LLM能否超越传统超参数优化算法
「最新研究比较了LLM与传统超参数优化算法在调参任务上的表现,发现经典方法仍占优势,但混合方案Centaur实现了最佳效果。」
在机器学习领域,超参数优化(HPO)一直是提升模型性能的关键环节。传统上,研究人员依赖贝叶斯优化、CMA-ES等经典算法来寻找最佳超参数组合。然而,随着大语言模型(LLM)能力的快速提升,一个自然的问题浮现出来:LLM能否取代这些经典算法,甚至做得更好?近期一篇来自arXiv的预印本论文《Can LLMs Beat Classical Hyperparameter Optimization Algorithms?》对此进行了系统性的探索。
该研究利用名为autoresearch的代码库作为测试平台。autoresearch允许一个LLM智能体通过直接编辑训练代码来优化超参数,这为LLM提供了极大的灵活性——它不仅可以调整参数值,还能修改训练流程本身。研究团队在小语言模型的超参数调优任务上,将经典HPO算法(如CMA-ES和TPE)与基于LLM的方法进行了比较,所有方法均在固定的计算预算下运行。
实验结果显示,当在autoresearch上定义固定的搜索空间时,经典方法如CMA-ES和TPE始终优于LLM智能体。研究者指出,在此类任务中,避免内存溢出(OOM)失败比搜索多样性更为关键。经典算法因其稳健的搜索策略和状态管理能力,能够更有效地规避这类工程性问题。即使允许LLM直接编辑源代码,虽然缩小了与经典方法的差距,但并未完全反超——即便是当时最先进的模型,如Claude Opus 4.6和Gemini 3.1 Pro Preview,也未能做到。
研究进一步分析了LLM表现不佳的原因。作者观察到,LLM在跨试验(trial)追踪优化状态方面存在明显困难。它们往往缺乏对先前尝试结果的系统记忆,导致搜索过程缺乏连贯性和方向性。相比之下,经典方法虽然缺乏LLM所拥有的领域知识,但它们在状态维护和搜索策略上更为成熟。
为了融合两者的优势,研究团队提出了一种名为Centaur的混合方法。Centaur将CMA-ES的可解释内部状态(包括均值向量、步长和协方差矩阵)共享给一个LLM。LLM利用这些结构化信息来指导后续的搜索方向,而CMA-ES则负责维护搜索的稳定性和全局性。实验结果表明,Centaur在所有测试方法中取得了最佳性能。值得注意的是,一个仅有0.8B参数的LLM在Centaur框架下就足以超越所有纯经典方法和纯LLM方法。
研究者还探讨了无约束代码编辑场景下的表现。他们发现,当允许LLM自由编辑代码时,需要更大规模的模型才能与经典方法竞争。这表明,在缺乏搜索结构约束的情况下,LLM需要更强的推理能力才能有效探索超参数空间。此外,论文还分析了搜索多样性、模型规模从0.8B到前沿模型的扩展规律,以及Centaur中LLM提议试验比例的影响。
综合来看,这项研究的核心结论是:LLM在超参数优化中并非经典算法的替代品,而是有效的补充。LLM最擅长利用领域知识和上下文理解来提出有洞察力的调整方向,而经典算法则擅长稳健的搜索和状态管理。两者结合——如Centaur所示——能够实现1+1>2的效果。这一发现不仅为自动机器学习(AutoML)领域提供了新的思路,也暗示了未来AI系统设计中人机协作或模型-算法协作的潜在方向。
来源:Heooo AI工具导航