DivInit：突破智能体搜索并行采样瓶颈

在人工智能领域，智能体搜索（Agentic Search）正成为提升大语言模型（LLM）推理能力的关键技术。通过让模型在搜索过程中自主规划、执行多步操作，智能体搜索能够处理需要复杂信息整合的任务。然而，如何高效扩展测试时计算（Test-time Scaling）一直是研究热点。近期，一篇发表于arXiv的论文《Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search》揭示了当前主流方法——并行采样（Parallel Sampling）的局限性，并提出了一种轻量级改进方案DivInit。

传统上，智能体搜索的测试时扩展主要沿两个方向推进：一是增加深度（Depth），即让单个搜索轨迹执行更多轮次和生成更多令牌；二是增加广度（Breadth），即同时运行多个独立的搜索轨迹（即并行采样）。论文作者团队聚焦于广度扩展，并发现了一个关键问题：标准并行采样方法存在收益递减现象。当模型在多个并行轨迹的首轮查询中产生高度相似的提问时，这些轨迹会检索到大量重叠的证据，导致后续推理步骤建立在重复信息之上，从而浪费了计算资源。

为定量分析这一问题，研究者在多个开源模型和基准测试上进行了实验。结果表明，随着并行轨迹数量增加，标准并行采样的性能提升曲线迅速趋于平缓。例如，在需要多步推理的多跳问答任务中，单纯增加并行轨迹数量带来的边际收益几乎可以忽略不计。这一现象的根本原因在于查询冗余（Query Redundancy）——模型倾向于在首轮生成语义相近的查询，使得不同轨迹的搜索空间高度重合。

针对这一瓶颈，论文提出了DivInit（Diverse Initialization）方法。这是一种无需额外训练的干预策略，仅作用于智能体搜索的第一轮查询生成阶段。具体而言，DivInit不直接采样k个独立的首轮查询，而是先从一个批次中生成n个候选查询（n大于k），然后从中挑选出k个多样性最高的查询作为种子，分别启动并行的搜索轨迹。通过这种方式，每个轨迹从一开始就探索不同的信息维度，从而有效避免了证据重叠。

实验结果显示，DivInit在五个开源模型（包括Llama、Qwen等系列）和八个基准测试上均一致优于标准并行采样。特别是在多跳问答任务中，在相同计算预算下，DivInit平均带来了5到7个百分点的性能提升。这一改进不仅适用于简单的检索任务，在需要复杂推理的HotpotQA、2WikiMultihopQA等数据集上也表现出色。研究者还指出，DivInit的实现极为轻量——仅需在首轮查询时增加一次候选生成和多样性筛选的步骤，对整体推理延迟影响极小。

从技术角度看，DivInit的贡献在于将“多样性”这一概念系统性地引入了智能体搜索的广度扩展中。它呼应了近年来在文本生成、强化学习等领域中被广泛验证的一个观点：合理引入多样性能够有效提升模型在复杂任务上的表现。此外，由于DivInit不依赖模型微调或额外训练，它可以直接应用于现有的大语言模型和搜索框架，具有极高的实用价值。

该研究的代码已在GitHub上开源，方便社区复现和进一步探索。对于从事智能体开发、检索增强生成（RAG）以及推理优化的研究者和工程师而言，DivInit提供了一种简单而有效的思路：在扩展搜索广度时，与其盲目增加并行轨迹数量，不如先确保首轮查询的多样性。这一发现也为后续研究指明了方向——如何更智能地管理搜索过程中的信息冗余，将是大规模智能体系统走向实用的关键一环。