技术进展

递归自进化智能体:保持门控实现安全提升

Heooo 06月30日12时03分 3 阅读

「新研究提出RSEA方法,通过三层自然语言状态和严格保持门控,实现递归自进化智能体的安全性能提升,在多个基准测试中表现优异。」

大型语言模型智能体在不更新权重的情况下,通过进化自然语言工件(如反思、工作流、剧本、备忘单或优化提示)来提升性能,已成为一种常见范式。然而,这些方法通常只在单一基准测试上报告成功,缺乏横向比较。最新研究《Recursive Self-Evolving Agents via Held-Out Selection》提出了一种名为RSEA的递归自进化智能体,通过严格保持门控机制,实现了安全且持续的性能提升。

RSEA的核心创新在于其携带的紧凑三层自然语言状态:命令式策略、可复用技能和程序式剧本。在每一代进化中,RSEA会根据自身轨迹重写所有三层内容,并通过一个保持集(held-out split)进行验证。只有当候选进化不会导致性能退化时,才会被采纳。这种“保持更好”门控机制确保了递归自进化的单调安全性,即智能体永远不会显著低于基础智能体的性能。

研究团队在四个多样化基准测试(ALFWorld、GAIA、τ-bench和WebShop)上,与六种忠实基线方法(ReAct、Reflexion、GEPA、AWM、ACE和Dynamic Cheatsheet)进行了对比。所有方法均使用相同的本地骨干模型进行评估。实验结果显示,没有一种工件在所有任务中普遍获胜。RSEA在ALFWorld上是最强的单次方法,达到69.3%的成功率,优于ReAct的64.6%(McNemar检验p=0.015)。在允许重试的情况下,RSEA更达到79.4%,为整体最佳结果。然而,在强骨干模型的工具使用任务中,具体工作流归纳方法AWM表现最佳。

研究还揭示了无门控上下文进化的高风险。Dynamic Cheatsheet方法在线整理上下文而不使用保持门控,在ALFWorld上接近最佳(70.7%),但在WebShop上性能崩溃,得分仅为0.14,而ReAct得分为0.43。这突显了无约束进化的不稳定性。相比之下,RSEA的严格保持选择机制使得递归自进化在单调安全方面表现出色:它从未在任何基准测试上显著低于基础智能体,并在进化上下文可能有害时自动回退到标准ReAct。

这项研究为智能体自进化领域提供了重要洞见。首先,它证明了通过精心设计的门控机制,递归自进化可以成为可靠且安全的性能提升手段。其次,它强调了不同任务可能需要不同的进化策略,单一方法难以通用。最后,RSEA的保持集验证方法为未来研究提供了可复用的框架,有助于开发更稳健、更高效的智能体系统。研究团队已公开相关代码,以促进社区进一步探索。

# 智能体 # 自进化 # 保持门控 # LLM

来源:Heooo AI工具导航