AI智能体合成科学结论能力堪忧
「最新研究显示,AI智能体在合成科学结论时能力有限,最佳模型F1分数仅0.337,且存在数据泄露问题,可靠合成仍是挑战。」
近年来,AI智能体在科学研究中的应用日益广泛,它们被用于检索证据、推理不同来源的信息并合成结论,这些结论甚至被用于高风险的决策场景。然而,一项来自arXiv的最新研究揭示,在健康等高风险领域,AI智能体合成科学结论的能力远未达到可靠水平。
该研究团队提出了一个名为SciConBench的大规模实时基准测试,包含9110个问题以及由专家撰写的系统综述结论,旨在评估开放域科学结论合成能力。为了确保评估的准确性,研究团队还开发了一套专家验证的自动化评估流程,将结论分解为原子事实,并通过事实精确率和召回率来衡量正确性和全面性。此外,为了缓解数据泄露问题,他们引入了SciConHarness,一个洁净室评估框架,为智能体配备受控的网络交互环境,以确保测量的有效性。
在对8个前沿模型和深度研究智能体进行评估后,研究结果令人警醒:在洁净室设置下,表现最佳的智能体仅获得了0.337的事实F1分数。这一结果远低于预期,表明AI智能体在合成科学结论时,事实质量仍然很低。更值得注意的是,洁净室设置下的表现始终低于无约束评估,这暗示了数据泄露可能夸大了模型真实合成能力的估计。
研究还进一步审计了面向消费者的AI智能体,如Google AI Overview和OpenEvidence。结果发现,这些智能体经常生成不完整甚至相互矛盾的结论,即便在已知真实答案的情况下也是如此。这一发现对依赖AI进行信息检索和决策的用户来说,无疑是一个严峻的警告。
总体而言,这项研究明确指出,可靠地合成科学结论仍然是一个悬而未决的挑战。对于开放域AI智能体而言,洁净室评估是评估其真实能力的关键。研究团队强调,在AI智能体能够真正可靠地处理科学文献并生成可信任的结论之前,还需要在模型架构、训练数据和评估方法上进行更深入的研究和改进。这项研究不仅为AI社区提供了宝贵的评估工具和基准,也提醒我们,在将AI应用于高风险的科学研究时,必须保持谨慎和批判性思维。
来源:Heooo AI工具导航