三体进化框架让AI研究员能力跃升
「研究者提出HOTE框架,通过混合模式强化学习协同进化提议者、求解者与评判者,使8B模型在深度研究任务上超越更大参数模型。」
在人工智能向通用智能迈进的过程中,深度研究与智能体进化被视为两大核心任务。深度研究要求智能体在开放环境中自主检索、整合信息以完成复杂研究课题,但现有系统受限于静态参数化能力;智能体进化虽能通过与环境的交互积累经验,却仅在具有标准答案的可验证任务上得到验证,与开放型研究任务之间存在显著差距。为弥合这一鸿沟,研究团队提出了混合开放三体进化(HOTE)框架,通过混合模式强化学习实现提议者、求解者与评判者的协同进化,推动智能体在开放任务与环境中向自主进化方向发展。
HOTE框架的核心设计围绕三个模块展开:提议者负责生成多样化的研究问题与探索方向,求解者根据提议进行信息检索、推理与答案构建,评判者则对求解过程与结果进行质量评估与反馈。三者通过基于网络规模知识的混合模式强化学习进行协同训练,形成持续进化的闭环。与传统方法不同,HOTE并非单独优化某个模块,而是让三个模块在交互中共同提升,从而突破单一模块的能力瓶颈。实验结果显示,仅8B参数的模型在经过HOTE训练后,在三个长文本深度研究基准测试中,不仅超越了最强的静态开源8-32B模型,还优于采用先进深度研究训练方法训练的模型,且训练时间开销更少。
这一成果的关键在于HOTE框架对进化机制的重新设计。传统强化学习通常依赖固定奖励函数,难以适应开放研究任务的多样性与不确定性。HOTE采用混合模式,结合了基于结果的稀疏奖励与基于过程的结构化反馈,使智能体在探索复杂研究路径时既能获得宏观方向指引,又能得到微观步骤的优化信号。此外,三模块协同进化避免了单一模块过拟合或陷入局部最优,保证了进化方向的持续性与多样性。研究者特别强调,三个模块的进化缺一不可,任何模块的缺失都会导致性能显著下降。
从技术意义上看,HOTE框架为将智能体进化从封闭、可验证任务拓展至开放、非结构化研究任务提供了可行路径。它证明了通过精心设计的协作进化机制,小规模模型也能在复杂研究任务上达到甚至超越大规模模型的水平。这对于降低模型部署成本、提升实际应用中的灵活性与适应性具有重要价值。同时,该框架也为未来自主进化的智能体系统提供了架构参考,尤其是在需要持续探索与知识更新的场景中,如科学发现、文献综述、技术调研等。
目前,该研究已在arXiv上发布,并公开了相关代码与数据。研究者表示,下一步将探索HOTE框架在更多开放领域任务中的应用,并进一步优化进化效率与稳定性。随着智能体在真实世界中的部署日益广泛,如何让它们具备持续进化、适应新任务的能力,正成为AI领域的关键课题。HOTE框架的提出,无疑为这一方向注入了新的技术思路与实证支持。
来源:Heooo AI工具导航