创意工具使用成AI新挑战：CreativityBench基准发布

近年来，大型语言模型在推理和与环境交互的任务中展现了强大的能力，但它们在创造性问题解决方面的潜力尚未被充分探索。为了填补这一空白，来自学术界的研究团队近日发布了一项名为CreativityBench的新基准，专门用于评估大模型在创意工具使用场景下的表现。该研究通过“基于功能的工具重利用”这一视角，深入考察了模型能否像人类一样，在非典型情境下重新审视日常物品的潜在用途。

CreativityBench的核心在于构建了一个大规模的功能知识库。研究团队收集了超过4000个实体和15万条以上的功能注释，明确关联了物体、部件、属性及其可操作用途。这个知识库不仅涵盖了常见物品的典型用法，还包含了大量非显而易见的、但物理上可行的替代用法。例如，一把螺丝刀不仅可以拧螺丝，其手柄部分在特定情境下可以作为锤子使用，或者其金属杆可以作为杠杆。这种对“功能”而非“名称”的关注，是评估模型创意推理能力的关键。

基于这一知识库，团队生成了1.4万个接地任务。每个任务都要求模型在特定约束条件下，识别出能够解决问题的非显而易见但物理上合理的方案。例如，任务可能要求模型“在没有胶水的情况下，用办公室常见物品将两张纸粘在一起”，模型需要想到用回形针弯曲后作为夹子，或者用胶带（如果可用）等。这些任务的设计旨在测试模型是否能够超越物品的常规用途，进行深层次的物理机制推理。

研究团队对包括闭源和开源模型在内的10个最先进的大模型进行了全面评估。结果显示，模型通常能够选择出一个看似合理的物体，但在识别正确的部件、理解其功能以及背后的物理机制方面存在显著不足，导致整体性能大幅下降。具体来说，模型在“选择正确物体”这一环节的表现尚可，但在“选择正确部件”、“解释其功能”以及“描述物理机制”等后续步骤中，准确率急剧下滑。这表明，当前模型更多依赖于统计模式匹配来猜测答案，而非真正理解物体在物理世界中的潜在用途。

更令人关注的是，研究还发现了几个关键现象：首先，模型规模的提升带来的性能改善非常有限，很快便达到饱和；其次，强大的通用推理能力并不能可靠地转化为创造性的功能发现能力；最后，常见的推理时策略，如思维链，在提升创意工具使用能力方面效果有限。这些结果共同指向一个结论：创意工具使用对于当前的大模型来说仍然是一个重大挑战。

CreativityBench的发布为AI社区提供了一个有价值的测试平台，用于研究这种“缺失的智能维度”。研究团队指出，未来的智能体系统，特别是在需要自主规划、环境交互和问题解决的应用场景中，必须将这种基于功能的创意推理能力作为核心模块来开发。该基准不仅揭示了现有模型的短板，也为未来如何设计和训练具有更强创造力的AI系统指明了方向。对于从事AI智能体、机器人学和通用人工智能研究的开发者而言，这一工作具有重要的参考价值。