DivInit:突破智能体搜索并行采样瓶颈
「针对智能体搜索中并行采样收益递减问题,研究提出DivInit方法,通过多样化首轮查询初始化,显著提升多跳问答性能。」
在人工智能领域,智能体搜索(Agentic Search)正成为提升大语言模型(LLM)推理能力的关键技术。通过让模型在搜索过程中自主规划、执行多步操作,智能体搜索能够处理需要复杂信息整合的任务。然而,如何高效扩展测试时计算(Test-time Scaling)一直是研究热点。近期,一篇发表于arXiv的论文《Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search》揭示了当前主流方法——并行采样(Parallel Sampling)的局限性,并提出了一种轻量级改进方案DivInit。
传统上,智能体搜索的测试时扩展主要沿两个方向推进:一是增加深度(Depth),即让单个搜索轨迹执行更多轮次和生成更多令牌;二是增加广度(Breadth),即同时运行多个独立的搜索轨迹(即并行采样)。论文作者团队聚焦于广度扩展,并发现了一个关键问题:标准并行采样方法存在收益递减现象。当模型在多个并行轨迹的首轮查询中产生高度相似的提问时,这些轨迹会检索到大量重叠的证据,导致后续推理步骤建立在重复信息之上,从而浪费了计算资源。
为定量分析这一问题,研究者在多个开源模型和基准测试上进行了实验。结果表明,随着并行轨迹数量增加,标准并行采样的性能提升曲线迅速趋于平缓。例如,在需要多步推理的多跳问答任务中,单纯增加并行轨迹数量带来的边际收益几乎可以忽略不计。这一现象的根本原因在于查询冗余(Query Redundancy)——模型倾向于在首轮生成语义相近的查询,使得不同轨迹的搜索空间高度重合。
针对这一瓶颈,论文提出了DivInit(Diverse Initialization)方法。这是一种无需额外训练的干预策略,仅作用于智能体搜索的第一轮查询生成阶段。具体而言,DivInit不直接采样k个独立的首轮查询,而是先从一个批次中生成n个候选查询(n大于k),然后从中挑选出k个多样性最高的查询作为种子,分别启动并行的搜索轨迹。通过这种方式,每个轨迹从一开始就探索不同的信息维度,从而有效避免了证据重叠。
实验结果显示,DivInit在五个开源模型(包括Llama、Qwen等系列)和八个基准测试上均一致优于标准并行采样。特别是在多跳问答任务中,在相同计算预算下,DivInit平均带来了5到7个百分点的性能提升。这一改进不仅适用于简单的检索任务,在需要复杂推理的HotpotQA、2WikiMultihopQA等数据集上也表现出色。研究者还指出,DivInit的实现极为轻量——仅需在首轮查询时增加一次候选生成和多样性筛选的步骤,对整体推理延迟影响极小。
从技术角度看,DivInit的贡献在于将“多样性”这一概念系统性地引入了智能体搜索的广度扩展中。它呼应了近年来在文本生成、强化学习等领域中被广泛验证的一个观点:合理引入多样性能够有效提升模型在复杂任务上的表现。此外,由于DivInit不依赖模型微调或额外训练,它可以直接应用于现有的大语言模型和搜索框架,具有极高的实用价值。
该研究的代码已在GitHub上开源,方便社区复现和进一步探索。对于从事智能体开发、检索增强生成(RAG)以及推理优化的研究者和工程师而言,DivInit提供了一种简单而有效的思路:在扩展搜索广度时,与其盲目增加并行轨迹数量,不如先确保首轮查询的多样性。这一发现也为后续研究指明了方向——如何更智能地管理搜索过程中的信息冗余,将是大规模智能体系统走向实用的关键一环。
来源:Heooo AI工具导航