新基准测试揭示AI创造性工具使用短板

近日，一项发表于arXiv的研究提出了一个名为CreativityBench的新基准，旨在系统评估大型语言模型（LLM）在创造性工具使用方面的能力。该研究由Cheng Qian等人完成，通过构建大规模功能属性知识库（KB），设计出14,000个需要模型识别非显而易见但物理上可行的解决方案的接地任务，从而深入探究了当前AI模型在创意推理上的局限性。

研究团队首先构建了一个包含4,000个实体和超过15万条功能属性注释的知识库，显式地链接了物体、部件、属性及其可操作用途。基于这一知识库，他们生成了大量任务，要求模型在给定约束条件下，通过重新利用现有物体的功能属性来解决问题，而非依赖其常规用途。例如，模型可能需要想出如何用一把尺子来拧螺丝，或者用一本书来垫高桌脚。

在10个最先进的大型语言模型（包括闭源和开源模型）上的评估结果显示，模型通常能够选择一个看似合理的物体，但在识别正确的部件、理解其功能属性以及揭示解决问题的底层物理机制方面表现不佳，导致整体性能显著下降。具体来说，模型在“选择物体”环节的准确率尚可，但在“识别部件”、“理解功能属性”和“阐述物理机制”等后续步骤中，准确率大幅滑坡。

研究还发现了一些关键趋势：模型性能随规模扩大的提升很快陷入饱和；强大的通用推理能力并不能可靠地转化为创造性功能属性的发现；常见的推理时策略，如思维链（Chain-of-Thought），带来的收益也十分有限。这些结果表明，对于当前的大语言模型而言，创造性工具使用仍然是一个重大挑战。

该研究的作者指出，CreativityBench为研究AI模型中缺失的这一智能维度提供了一个有用的测试平台，其成果对未来的规划与推理模块设计具有潜在启示。这项研究不仅揭示了当前AI在创意推理上的瓶颈，也为开发更具通用性和适应性的智能体指明了方向。随着AI代理越来越多地被应用于需要灵活解决问题的真实世界场景，理解并提升其创造性工具使用能力将变得愈发重要。

新基准测试揭示AI创造性工具使用短板

相关资讯

多智能体系统Agent4cs突破大型代码库摘要难题

神经符号框架PACE生成可行反事实解释

构建性对齐：重塑AI与人类偏好互动

有限道德：AI道德计算的新框架

ASK+框架：不确定性门控提升LLM辅助强化学习