技术进展

新基准测试揭示AI代理的授权证据漏洞

Heooo 05月08日12时18分 1 阅读

「研究人员推出Partial Evidence Bench基准,用于评估AI代理在受限授权环境中的信息完整性,发现静默过滤行为存在严重安全风险。」

人工智能代理系统在企业环境中的应用日益广泛,它们被部署在检索系统、委托工作流和政策约束的证据环境中。然而,一个关键的安全问题逐渐浮出水面:即使访问控制被正确执行,系统仍可能生成看似完整的答案,而核心证据却位于调用者的授权范围之外。这种“静默过滤”现象可能导致严重的信息偏差和决策失误。

为系统性地衡量这一故障模式,研究团队近日推出了Partial Evidence Bench(部分证据基准)。该基准是一个确定性的评估框架,专门用于测试AI代理在授权受限环境中的表现。研究论文已在预印本平台arXiv上发表,详细阐述了其设计原理和初步实验结果。

Partial Evidence Bench包含三个场景系列:尽职调查、合规审计和安全事件响应,共计72个任务。每个任务都配备了ACL分区的语料库、完整的标准答案、授权视图下的标准答案、完整性判断标准以及结构化的差距报告标准。这种设计确保了评估的全面性和可重复性。

基准从四个维度对系统进行评估:答案正确性、完整性意识、差距报告质量和不安全完整性行为。其中,“不安全完整性行为”指的是系统在证据缺失的情况下仍输出看似完整答案的风险。初步基线测试结果显示,静默过滤在所有测试场景中都表现出“灾难性的不安全”,而明确的“失败并报告”行为则能有效消除不安全完整性,同时避免任务退化为简单的放弃回答。

研究团队还使用真实模型进行了初步运行,结果显示出模型依赖性和场景敏感性的差异。不同模型在处理授权受限证据时,有的倾向于过度声称完整性,有的则保守地低估,还有的能够以企业可用的形式报告不完整性。这种差异表明,AI代理的授权意识并非单一能力,而是与具体模型架构和训练数据密切相关。

Partial Evidence Bench的推出具有重要的治理意义。它使得衡量AI代理在授权受限环境中的关键故障成为可能,而无需依赖人工评判或易受污染的静态语料库。对于企业而言,这意味着可以更可靠地评估AI代理在合规审计、尽职调查等高风险场景中的表现,从而避免因信息不完整导致的决策风险。

研究论文指出,随着AI代理在企业流程中的深度嵌入,授权边界内的信息完整性将成为一个核心治理问题。Partial Evidence Bench为这一问题的量化研究提供了基础工具,有望推动更安全、更透明的AI代理系统设计。未来,研究团队计划扩展基准的场景覆盖范围,并探索更复杂的授权模型,以应对日益多样化的企业需求。

# AI安全 # 基准测试 # 代理系统 # 企业AI # 信息完整性

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表