技术进展

创意工具使用成AI新挑战:CreativityBench基准发布

Heooo 05月07日12时03分 1 阅读

「研究团队推出CreativityBench基准,评估大模型在工具重利用中的创意推理能力,发现模型在识别物体部件和物理机制上表现不佳。」

近年来,大型语言模型在推理和与环境交互的任务中展现了强大的能力,但它们在创造性问题解决方面的潜力尚未被充分探索。为了填补这一空白,来自学术界的研究团队近日发布了一项名为CreativityBench的新基准,专门用于评估大模型在创意工具使用场景下的表现。该研究通过“基于功能的工具重利用”这一视角,深入考察了模型能否像人类一样,在非典型情境下重新审视日常物品的潜在用途。

CreativityBench的核心在于构建了一个大规模的功能知识库。研究团队收集了超过4000个实体和15万条以上的功能注释,明确关联了物体、部件、属性及其可操作用途。这个知识库不仅涵盖了常见物品的典型用法,还包含了大量非显而易见的、但物理上可行的替代用法。例如,一把螺丝刀不仅可以拧螺丝,其手柄部分在特定情境下可以作为锤子使用,或者其金属杆可以作为杠杆。这种对“功能”而非“名称”的关注,是评估模型创意推理能力的关键。

基于这一知识库,团队生成了1.4万个接地任务。每个任务都要求模型在特定约束条件下,识别出能够解决问题的非显而易见但物理上合理的方案。例如,任务可能要求模型“在没有胶水的情况下,用办公室常见物品将两张纸粘在一起”,模型需要想到用回形针弯曲后作为夹子,或者用胶带(如果可用)等。这些任务的设计旨在测试模型是否能够超越物品的常规用途,进行深层次的物理机制推理。

研究团队对包括闭源和开源模型在内的10个最先进的大模型进行了全面评估。结果显示,模型通常能够选择出一个看似合理的物体,但在识别正确的部件、理解其功能以及背后的物理机制方面存在显著不足,导致整体性能大幅下降。具体来说,模型在“选择正确物体”这一环节的表现尚可,但在“选择正确部件”、“解释其功能”以及“描述物理机制”等后续步骤中,准确率急剧下滑。这表明,当前模型更多依赖于统计模式匹配来猜测答案,而非真正理解物体在物理世界中的潜在用途。

更令人关注的是,研究还发现了几个关键现象:首先,模型规模的提升带来的性能改善非常有限,很快便达到饱和;其次,强大的通用推理能力并不能可靠地转化为创造性的功能发现能力;最后,常见的推理时策略,如思维链,在提升创意工具使用能力方面效果有限。这些结果共同指向一个结论:创意工具使用对于当前的大模型来说仍然是一个重大挑战。

CreativityBench的发布为AI社区提供了一个有价值的测试平台,用于研究这种“缺失的智能维度”。研究团队指出,未来的智能体系统,特别是在需要自主规划、环境交互和问题解决的应用场景中,必须将这种基于功能的创意推理能力作为核心模块来开发。该基准不仅揭示了现有模型的短板,也为未来如何设计和训练具有更强创造力的AI系统指明了方向。对于从事AI智能体、机器人学和通用人工智能研究的开发者而言,这一工作具有重要的参考价值。

# 大模型 # 创意推理 # 基准测试 # 工具使用 # AI评估

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表