三体进化框架让AI研究员能力跃升

在人工智能向通用智能迈进的过程中，深度研究与智能体进化被视为两大核心任务。深度研究要求智能体在开放环境中自主检索、整合信息以完成复杂研究课题，但现有系统受限于静态参数化能力；智能体进化虽能通过与环境的交互积累经验，却仅在具有标准答案的可验证任务上得到验证，与开放型研究任务之间存在显著差距。为弥合这一鸿沟，研究团队提出了混合开放三体进化（HOTE）框架，通过混合模式强化学习实现提议者、求解者与评判者的协同进化，推动智能体在开放任务与环境中向自主进化方向发展。

HOTE框架的核心设计围绕三个模块展开：提议者负责生成多样化的研究问题与探索方向，求解者根据提议进行信息检索、推理与答案构建，评判者则对求解过程与结果进行质量评估与反馈。三者通过基于网络规模知识的混合模式强化学习进行协同训练，形成持续进化的闭环。与传统方法不同，HOTE并非单独优化某个模块，而是让三个模块在交互中共同提升，从而突破单一模块的能力瓶颈。实验结果显示，仅8B参数的模型在经过HOTE训练后，在三个长文本深度研究基准测试中，不仅超越了最强的静态开源8-32B模型，还优于采用先进深度研究训练方法训练的模型，且训练时间开销更少。

这一成果的关键在于HOTE框架对进化机制的重新设计。传统强化学习通常依赖固定奖励函数，难以适应开放研究任务的多样性与不确定性。HOTE采用混合模式，结合了基于结果的稀疏奖励与基于过程的结构化反馈，使智能体在探索复杂研究路径时既能获得宏观方向指引，又能得到微观步骤的优化信号。此外，三模块协同进化避免了单一模块过拟合或陷入局部最优，保证了进化方向的持续性与多样性。研究者特别强调，三个模块的进化缺一不可，任何模块的缺失都会导致性能显著下降。

从技术意义上看，HOTE框架为将智能体进化从封闭、可验证任务拓展至开放、非结构化研究任务提供了可行路径。它证明了通过精心设计的协作进化机制，小规模模型也能在复杂研究任务上达到甚至超越大规模模型的水平。这对于降低模型部署成本、提升实际应用中的灵活性与适应性具有重要价值。同时，该框架也为未来自主进化的智能体系统提供了架构参考，尤其是在需要持续探索与知识更新的场景中，如科学发现、文献综述、技术调研等。

目前，该研究已在arXiv上发布，并公开了相关代码与数据。研究者表示，下一步将探索HOTE框架在更多开放领域任务中的应用，并进一步优化进化效率与稳定性。随着智能体在真实世界中的部署日益广泛，如何让它们具备持续进化、适应新任务的能力，正成为AI领域的关键课题。HOTE框架的提出，无疑为这一方向注入了新的技术思路与实证支持。