AI智能体信任度量化测量研究取得突破

随着大语言模型智能体越来越多地以团队形式协同工作，每个智能体都需要判断其队友的可信程度。然而，学术界长期缺乏一种标准化的方法来测量AI智能体之间的信任水平。近日，一篇发表于arXiv的论文《Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems》填补了这一空白，提出了一种基于代价验证的行为测量框架。

该研究设计了一个合作生存游戏作为实验环境。在这个游戏中，智能体需要决定是否验证队友的工作：验证需要消耗资源，而盲目信任错误答案则可能导致致命后果。通过对比有记忆版本与无记忆版本模型的行为差异，研究者将验证行为的减少量作为信任的可观测指标。当智能体减少对队友的验证时，即表明信任正在形成。

研究团队对六个前沿模型快照进行了系统测试，包括Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro以及两个较小的模型。实验结果显示，当与持续可靠的队友配对时，前四个模型将验证率降低了约60%至85%，表现出明显的信任倾向。相比之下，两个较小的模型几乎未显示出类似的调整行为，暗示其信任形成能力较弱。

进一步的实验聚焦于信任破裂与恢复。当队友出现错误时，所有模型都会重新增加验证行为，但具体恢复策略存在显著差异。部分模型将审查重点集中在出错的智能体上，而另一些模型则对整个团队变得更加谨慎。研究还发现，信任恢复的速度远慢于形成速度，且如果错误在时间上集中发生，模型会维持更长时间的怀疑状态，其影响远超相同次数的分散错误。

这些差异在实际应用中具有重要影响。在实验环境中，能够形成信任的模型验证更少、决策更快，并获得了更高的收益。相反，持续过度验证的模型并未带来更高的安全性，反而与优柔寡断相关联。研究指出，信任倾向可以在模型部署前进行测量，这为多智能体系统的治理提供了新思路：校准信任水平比追求最大怀疑更为关键。

该研究首次为AI智能体间的信任提供了可量化的行为测量方法，揭示了不同模型在信任形成、破裂与恢复上的异质性。这一成果不仅有助于理解多智能体协作的内在机制，也为未来设计更高效、更安全的AI协作系统奠定了方法论基础。随着AI团队协作场景的日益普及，如何让智能体学会合理分配信任，将成为一个越来越重要的研究课题。