开源项目

腾讯联合人大高瓴开源规划评测框架PlanningBench

Heooo 06月05日21时00分 35 阅读

「腾讯混元团队与人大高瓴联合开源PlanningBench，覆盖30多种规划任务，提供可验证数据生成与训练信号，显著提升模型规划能力。」

近日，腾讯混元团队联合中国人民大学高瓴人工智能学院等机构，共同推出并开源了PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。该框架从实际的规划场景出发，系统化地抽象了任务、约束和难度等因素，构建了一个覆盖超过30种规划任务类型的数据生成与验证体系。

PlanningBench不仅能够评测模型是否具备规划能力，还可以为模型的规划能力训练提供稳定且可迁移的奖励信号。在具体任务方面，PlanningBench涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务等六大类任务。这样广泛的任务类型设计，避免了模型仅在单一领域的“刷题”现象，使得模型能够更好地应对多样化的实际应用场景。

此外，PlanningBench的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素，使得数据生成可以围绕真实难点进行调整，而不是简单延长提示内容。每条数据实例还配备了checklist，用以评估模型输出是否满足输入条件、资源限制和目标最优性。值得一提的是，PlanningBench同时关注局部合规和全局成功的评测方式，能够识别出“看似大部分正确但整体不可执行”的计划。这对于诊断大型语言模型在复杂约束下的真实规划能力具有重要意义。

通过PlanningBench的可验证数据进行训练，模型在未见过的规划基准和通用任务上的表现也有了显著提升，显示出其学习信号的通用性。总体来看，PlanningBench形成了一个真实场景驱动的闭环生成与训练迁移体系，为未来的人工智能规划研究提供了新的工具和方向。

# 开源框架 # 大语言模型 # 规划能力 # 评测 # 腾讯 # 人大高瓴

来源：Heooo AI工具导航

热门工具

起号兽

# 生产力工具

起号兽

起号兽，你的AI短视频运营助手。智能规划内容、生成脚本、指导拍摄、优化发布，一站式帮你打造个人IP。支持抖音、快手、小红书、视频号多平台运营。

# 生产力工具访问官网

豆包

# 对话机器人

豆包

豆包是你的 AI 聊天智能对话问答助手，写作文案翻译编程全能工具。豆包为你答疑解惑，提供灵感，辅助创作，也可以和你畅聊任何你感兴趣的话题。

# 对话机器人访问官网

巨量创意（字节跳动）

# 视频生成

巨量创意（字节跳动）

抖音/巨量引擎官方AI创意平台，支持图文/视频广告自动生成、A/B测试与智能优化。

# 视频生成访问官网

TRAE - IDE

# 代码助手

TRAE - IDE

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

# 代码助手访问官网