AI智能体合成科学结论能力堪忧

近年来，AI智能体在科学研究中的应用日益广泛，它们被用于检索证据、推理不同来源的信息并合成结论，这些结论甚至被用于高风险的决策场景。然而，一项来自arXiv的最新研究揭示，在健康等高风险领域，AI智能体合成科学结论的能力远未达到可靠水平。

该研究团队提出了一个名为SciConBench的大规模实时基准测试，包含9110个问题以及由专家撰写的系统综述结论，旨在评估开放域科学结论合成能力。为了确保评估的准确性，研究团队还开发了一套专家验证的自动化评估流程，将结论分解为原子事实，并通过事实精确率和召回率来衡量正确性和全面性。此外，为了缓解数据泄露问题，他们引入了SciConHarness，一个洁净室评估框架，为智能体配备受控的网络交互环境，以确保测量的有效性。

在对8个前沿模型和深度研究智能体进行评估后，研究结果令人警醒：在洁净室设置下，表现最佳的智能体仅获得了0.337的事实F1分数。这一结果远低于预期，表明AI智能体在合成科学结论时，事实质量仍然很低。更值得注意的是，洁净室设置下的表现始终低于无约束评估，这暗示了数据泄露可能夸大了模型真实合成能力的估计。

研究还进一步审计了面向消费者的AI智能体，如Google AI Overview和OpenEvidence。结果发现，这些智能体经常生成不完整甚至相互矛盾的结论，即便在已知真实答案的情况下也是如此。这一发现对依赖AI进行信息检索和决策的用户来说，无疑是一个严峻的警告。

总体而言，这项研究明确指出，可靠地合成科学结论仍然是一个悬而未决的挑战。对于开放域AI智能体而言，洁净室评估是评估其真实能力的关键。研究团队强调，在AI智能体能够真正可靠地处理科学文献并生成可信任的结论之前，还需要在模型架构、训练数据和评估方法上进行更深入的研究和改进。这项研究不仅为AI社区提供了宝贵的评估工具和基准，也提醒我们，在将AI应用于高风险的科学研究时，必须保持谨慎和批判性思维。