新基准测试揭示AI代理的授权证据漏洞

人工智能代理系统在企业环境中的应用日益广泛，它们被部署在检索系统、委托工作流和政策约束的证据环境中。然而，一个关键的安全问题逐渐浮出水面：即使访问控制被正确执行，系统仍可能生成看似完整的答案，而核心证据却位于调用者的授权范围之外。这种“静默过滤”现象可能导致严重的信息偏差和决策失误。

为系统性地衡量这一故障模式，研究团队近日推出了Partial Evidence Bench（部分证据基准）。该基准是一个确定性的评估框架，专门用于测试AI代理在授权受限环境中的表现。研究论文已在预印本平台arXiv上发表，详细阐述了其设计原理和初步实验结果。

Partial Evidence Bench包含三个场景系列：尽职调查、合规审计和安全事件响应，共计72个任务。每个任务都配备了ACL分区的语料库、完整的标准答案、授权视图下的标准答案、完整性判断标准以及结构化的差距报告标准。这种设计确保了评估的全面性和可重复性。

基准从四个维度对系统进行评估：答案正确性、完整性意识、差距报告质量和不安全完整性行为。其中，“不安全完整性行为”指的是系统在证据缺失的情况下仍输出看似完整答案的风险。初步基线测试结果显示，静默过滤在所有测试场景中都表现出“灾难性的不安全”，而明确的“失败并报告”行为则能有效消除不安全完整性，同时避免任务退化为简单的放弃回答。

研究团队还使用真实模型进行了初步运行，结果显示出模型依赖性和场景敏感性的差异。不同模型在处理授权受限证据时，有的倾向于过度声称完整性，有的则保守地低估，还有的能够以企业可用的形式报告不完整性。这种差异表明，AI代理的授权意识并非单一能力，而是与具体模型架构和训练数据密切相关。

Partial Evidence Bench的推出具有重要的治理意义。它使得衡量AI代理在授权受限环境中的关键故障成为可能，而无需依赖人工评判或易受污染的静态语料库。对于企业而言，这意味着可以更可靠地评估AI代理在合规审计、尽职调查等高风险场景中的表现，从而避免因信息不完整导致的决策风险。

研究论文指出，随着AI代理在企业流程中的深度嵌入，授权边界内的信息完整性将成为一个核心治理问题。Partial Evidence Bench为这一问题的量化研究提供了基础工具，有望推动更安全、更透明的AI代理系统设计。未来，研究团队计划扩展基准的场景覆盖范围，并探索更复杂的授权模型，以应对日益多样化的企业需求。