程序化上下文增强提升LLM符号回归性能

符号回归（Symbolic Regression, SR）是科学发现中的一项基础任务，旨在从给定数据集中自动发现最符合的数学表达式。传统方法主要依赖遗传算法等进化策略，虽然有效，但在可扩展性和表达力方面存在局限。近年来，大语言模型（LLM）被引入符号回归领域，展现出巨大潜力。然而，现有基于LLM的方法通常仅依赖均方误差（MSE）等标量评估指标作为搜索过程中的唯一反馈信号，忽略了数据集中蕴含的丰富信息。

为了突破这一瓶颈，一项来自arXiv的最新研究提出了一种新颖的LLM进化搜索框架，引入了程序化上下文增强（Programmatic Context Augmentation）。该框架允许模型通过代码与数据集进行交互，主动执行数据分析并提取信息性信号，而不仅仅依赖聚合的评估分数。这一创新使得LLM能够更深入地理解数据的内在结构和模式，从而在符号回归任务中做出更明智的搜索决策。

具体而言，程序化上下文增强赋予LLM编写和执行代码的能力，以探索数据的统计特性、分布特征、异常值以及变量间的复杂关系。例如，模型可以自动计算相关系数矩阵、拟合残差分析或生成可视化辅助信息，这些丰富的上下文信息被整合到进化搜索的反馈循环中。与传统方法仅基于一个数值（如MSE）进行迭代不同，新框架让LLM能够“看到”更多数据细节，从而更精准地指导表达式生成和变异操作。

研究团队在先进的基准测试集LLM-SRBench上对框架进行了评估。实验结果表明，与强基线方法相比，该框架在搜索效率和最终表达式的准确性方面均展现出显著优势。这一成果不仅提升了符号回归的性能，也为LLM在科学计算和数据分析领域的应用开辟了新路径。它表明，通过赋予LLM程序化交互能力，可以极大地释放其在复杂推理任务中的潜力，使其从简单的“评分者”转变为主动的“探索者”。

该研究的意义在于，它提供了一种通用范式，未来可应用于更广泛的科学发现任务，如物理定律发现、生物系统建模等。随着LLM能力的不断增强，结合程序化上下文增强的进化搜索有望成为符号回归乃至更广泛AI驱动科学发现的标准工具。