技术进展

后训练中的能力激发与创造:自由能视角

Heooo 05月12日12时19分 1 阅读

「新研究提出通过“可达支持集”概念,区分大模型后训练中的能力激发与能力创造,为SFT和RL的本质差异提供新视角。」

在大型语言模型(LLM)的后训练阶段,监督微调(SFT)与强化学习(RL)的边界常常被简化为“模仿”与“发现”的对立。然而,一篇发表于arXiv的新论文《On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective》指出,这种粗粒度的区分远不足以揭示后训练过程的本质。该研究从自由能视角出发,提出了一种更为精细的分析框架,旨在厘清哪些操作只是“激发”了模型已有的潜在能力,哪些操作则真正“创造”了全新的能力。


论文的核心论点在于:后训练研究应当明确区分“能力激发”与“能力创造”。研究者引入了“可达支持集”(accessible support)这一关键概念,将其定义为在有限计算资源(如推理预算、采样次数)下,模型实际能够产生的行为集合。基于此,后训练过程若仅是对该集合内的行为进行重新加权(即调整不同行为的输出概率),则属于能力激发;而若该过程改变了支持集本身,即扩展了模型在有限预算下能够达到的行为范围,则属于能力创造。


为了将这一区分操作化,论文采用了自由能框架来统一理解SFT和RL。在自由能视角下,两种训练方法都可被视为对预训练参考分布进行重新加权的过程,区别仅在于所依赖的外部信号不同:SFT利用演示信号(demonstration signals)定义低能量行为,而RL则利用奖励信号(reward signals)定义低能量行为。当更新过程保持与基础模型相近时,其主要效应是局部的重新加权,而非能力创造。这意味着,无论是SFT还是RL,如果未显著改变模型在有限资源下的可达行为空间,它们本质上都只是能力激发。


该框架将研究者的注意力从“使用SFT还是RL”这一形式问题,转向了更具实质性的追问:后训练过程究竟是在重新加权那些模型本已可及的行为,还是通过搜索、交互、工具使用或整合新信息等方式,实实在在地扩展了模型的可达行为空间?这一视角的转变,对于理解后训练的技术边界和设计更高效的训练策略具有重要意义。例如,它解释了为何某些情况下SFT与RL的效果差异并不显著——当两者都未突破可达支持集时,它们对模型能力的提升本质上是同质的。


论文还指出,能力创造通常需要引入外部信息或新的交互模式,例如让模型在训练中调用外部工具、进行多轮搜索或与环境持续互动。这些手段能够为模型提供超出预训练阶段所见的信号,从而改变其内在的生成分布结构,进而扩展可达支持集。相比之下,仅依赖静态数据集进行SFT或RL,无论数据量多大,都难以实现真正的能力创造,除非这些数据本身包含了模型从未接触过的行为模式。


总体而言,这篇论文为后训练研究提供了重要的理论基石。它提醒从业者,在评估后训练方法的效果时,不应仅关注最终性能指标,而应深入分析模型的行为空间是否发生了本质变化。未来,基于自由能视角的框架或能帮助研究者更精准地设计后训练策略,将算力集中在真正能够扩展模型能力边界的环节上,而非浪费在仅调整概率分布的局部优化中。这一研究方向,无疑将为LLM的持续进化提供更为清晰的导航。

# 大模型后训练 # 能力激发 # 自由能 # SFT # RL

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表