技术进展

新基准测试揭示AI创造性工具使用短板

Heooo 05月07日15时03分 1 阅读

「研究团队发布CreativityBench基准,评估大模型在非典型工具使用中的创造力,发现模型在识别部件和物理机制方面存在显著不足。」

近日,一项发表于arXiv的研究提出了一个名为CreativityBench的新基准,旨在系统评估大型语言模型(LLM)在创造性工具使用方面的能力。该研究由Cheng Qian等人完成,通过构建大规模功能属性知识库(KB),设计出14,000个需要模型识别非显而易见但物理上可行的解决方案的接地任务,从而深入探究了当前AI模型在创意推理上的局限性。

研究团队首先构建了一个包含4,000个实体和超过15万条功能属性注释的知识库,显式地链接了物体、部件、属性及其可操作用途。基于这一知识库,他们生成了大量任务,要求模型在给定约束条件下,通过重新利用现有物体的功能属性来解决问题,而非依赖其常规用途。例如,模型可能需要想出如何用一把尺子来拧螺丝,或者用一本书来垫高桌脚。

在10个最先进的大型语言模型(包括闭源和开源模型)上的评估结果显示,模型通常能够选择一个看似合理的物体,但在识别正确的部件、理解其功能属性以及揭示解决问题的底层物理机制方面表现不佳,导致整体性能显著下降。具体来说,模型在“选择物体”环节的准确率尚可,但在“识别部件”、“理解功能属性”和“阐述物理机制”等后续步骤中,准确率大幅滑坡。

研究还发现了一些关键趋势:模型性能随规模扩大的提升很快陷入饱和;强大的通用推理能力并不能可靠地转化为创造性功能属性的发现;常见的推理时策略,如思维链(Chain-of-Thought),带来的收益也十分有限。这些结果表明,对于当前的大语言模型而言,创造性工具使用仍然是一个重大挑战。

该研究的作者指出,CreativityBench为研究AI模型中缺失的这一智能维度提供了一个有用的测试平台,其成果对未来的规划与推理模块设计具有潜在启示。这项研究不仅揭示了当前AI在创意推理上的瓶颈,也为开发更具通用性和适应性的智能体指明了方向。随着AI代理越来越多地被应用于需要灵活解决问题的真实世界场景,理解并提升其创造性工具使用能力将变得愈发重要。

# AI创造力 # 基准测试 # 大语言模型 # 工具使用 # 功能属性

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表