后训练中的能力激发与创造：自由能视角

在大型语言模型（LLM）的后训练阶段，监督微调（SFT）与强化学习（RL）的边界常常被简化为“模仿”与“发现”的对立。然而，一篇发表于arXiv的新论文《On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective》指出，这种粗粒度的区分远不足以揭示后训练过程的本质。该研究从自由能视角出发，提出了一种更为精细的分析框架，旨在厘清哪些操作只是“激发”了模型已有的潜在能力，哪些操作则真正“创造”了全新的能力。

论文的核心论点在于：后训练研究应当明确区分“能力激发”与“能力创造”。研究者引入了“可达支持集”（accessible support）这一关键概念，将其定义为在有限计算资源（如推理预算、采样次数）下，模型实际能够产生的行为集合。基于此，后训练过程若仅是对该集合内的行为进行重新加权（即调整不同行为的输出概率），则属于能力激发；而若该过程改变了支持集本身，即扩展了模型在有限预算下能够达到的行为范围，则属于能力创造。

为了将这一区分操作化，论文采用了自由能框架来统一理解SFT和RL。在自由能视角下，两种训练方法都可被视为对预训练参考分布进行重新加权的过程，区别仅在于所依赖的外部信号不同：SFT利用演示信号（demonstration signals）定义低能量行为，而RL则利用奖励信号（reward signals）定义低能量行为。当更新过程保持与基础模型相近时，其主要效应是局部的重新加权，而非能力创造。这意味着，无论是SFT还是RL，如果未显著改变模型在有限资源下的可达行为空间，它们本质上都只是能力激发。

该框架将研究者的注意力从“使用SFT还是RL”这一形式问题，转向了更具实质性的追问：后训练过程究竟是在重新加权那些模型本已可及的行为，还是通过搜索、交互、工具使用或整合新信息等方式，实实在在地扩展了模型的可达行为空间？这一视角的转变，对于理解后训练的技术边界和设计更高效的训练策略具有重要意义。例如，它解释了为何某些情况下SFT与RL的效果差异并不显著——当两者都未突破可达支持集时，它们对模型能力的提升本质上是同质的。

论文还指出，能力创造通常需要引入外部信息或新的交互模式，例如让模型在训练中调用外部工具、进行多轮搜索或与环境持续互动。这些手段能够为模型提供超出预训练阶段所见的信号，从而改变其内在的生成分布结构，进而扩展可达支持集。相比之下，仅依赖静态数据集进行SFT或RL，无论数据量多大，都难以实现真正的能力创造，除非这些数据本身包含了模型从未接触过的行为模式。

总体而言，这篇论文为后训练研究提供了重要的理论基石。它提醒从业者，在评估后训练方法的效果时，不应仅关注最终性能指标，而应深入分析模型的行为空间是否发生了本质变化。未来，基于自由能视角的框架或能帮助研究者更精准地设计后训练策略，将算力集中在真正能够扩展模型能力边界的环节上，而非浪费在仅调整概率分布的局部优化中。这一研究方向，无疑将为LLM的持续进化提供更为清晰的导航。