技术进展

AI智能体信任度量化测量研究取得突破

Heooo 06月16日12时23分 2 阅读

「新研究提出基于代价验证的行为测量法,量化AI智能体间的信任形成、破裂与恢复过程,揭示不同模型信任倾向差异。」

随着大语言模型智能体越来越多地以团队形式协同工作,每个智能体都需要判断其队友的可信程度。然而,学术界长期缺乏一种标准化的方法来测量AI智能体之间的信任水平。近日,一篇发表于arXiv的论文《Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems》填补了这一空白,提出了一种基于代价验证的行为测量框架。

该研究设计了一个合作生存游戏作为实验环境。在这个游戏中,智能体需要决定是否验证队友的工作:验证需要消耗资源,而盲目信任错误答案则可能导致致命后果。通过对比有记忆版本与无记忆版本模型的行为差异,研究者将验证行为的减少量作为信任的可观测指标。当智能体减少对队友的验证时,即表明信任正在形成。

研究团队对六个前沿模型快照进行了系统测试,包括Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro以及两个较小的模型。实验结果显示,当与持续可靠的队友配对时,前四个模型将验证率降低了约60%至85%,表现出明显的信任倾向。相比之下,两个较小的模型几乎未显示出类似的调整行为,暗示其信任形成能力较弱。

进一步的实验聚焦于信任破裂与恢复。当队友出现错误时,所有模型都会重新增加验证行为,但具体恢复策略存在显著差异。部分模型将审查重点集中在出错的智能体上,而另一些模型则对整个团队变得更加谨慎。研究还发现,信任恢复的速度远慢于形成速度,且如果错误在时间上集中发生,模型会维持更长时间的怀疑状态,其影响远超相同次数的分散错误。

这些差异在实际应用中具有重要影响。在实验环境中,能够形成信任的模型验证更少、决策更快,并获得了更高的收益。相反,持续过度验证的模型并未带来更高的安全性,反而与优柔寡断相关联。研究指出,信任倾向可以在模型部署前进行测量,这为多智能体系统的治理提供了新思路:校准信任水平比追求最大怀疑更为关键。

该研究首次为AI智能体间的信任提供了可量化的行为测量方法,揭示了不同模型在信任形成、破裂与恢复上的异质性。这一成果不仅有助于理解多智能体协作的内在机制,也为未来设计更高效、更安全的AI协作系统奠定了方法论基础。随着AI团队协作场景的日益普及,如何让智能体学会合理分配信任,将成为一个越来越重要的研究课题。

# AI信任 # 多智能体系统 # 行为测量 # 大语言模型 # 协作智能

来源:Heooo AI工具导航