腾讯联合人大高瓴开源规划评测框架PlanningBench
「腾讯混元团队与人大高瓴联合开源PlanningBench,覆盖30多种规划任务,提供可验证数据生成与训练信号,显著提升模型规划能力。」
近日,腾讯混元团队联合中国人民大学高瓴人工智能学院等机构,共同推出并开源了PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。该框架从实际的规划场景出发,系统化地抽象了任务、约束和难度等因素,构建了一个覆盖超过30种规划任务类型的数据生成与验证体系。
PlanningBench不仅能够评测模型是否具备规划能力,还可以为模型的规划能力训练提供稳定且可迁移的奖励信号。在具体任务方面,PlanningBench涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务等六大类任务。这样广泛的任务类型设计,避免了模型仅在单一领域的“刷题”现象,使得模型能够更好地应对多样化的实际应用场景。
此外,PlanningBench的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素,使得数据生成可以围绕真实难点进行调整,而不是简单延长提示内容。每条数据实例还配备了checklist,用以评估模型输出是否满足输入条件、资源限制和目标最优性。值得一提的是,PlanningBench同时关注局部合规和全局成功的评测方式,能够识别出“看似大部分正确但整体不可执行”的计划。这对于诊断大型语言模型在复杂约束下的真实规划能力具有重要意义。
通过PlanningBench的可验证数据进行训练,模型在未见过的规划基准和通用任务上的表现也有了显著提升,显示出其学习信号的通用性。总体来看,PlanningBench形成了一个真实场景驱动的闭环生成与训练迁移体系,为未来的人工智能规划研究提供了新的工具和方向。
来源:Heooo AI工具导航