元流程框架让AI代理自动优化提示词
技术进展

元流程框架让AI代理自动优化提示词

Heooo 05月06日00时04分 1 阅读

「Islo.dev推出元流程框架,通过持久化执行日志让AI代理自动诊断并改进提示词,在5个编程任务上实现从0到5的自动修复。」

在AI代理开发领域,提示词工程一直是一项高度依赖人工经验的工作。开发者需要反复调试系统提示词,观察代理行为,再手动调整。Islo.dev团队近日展示的元流程(meta-harness)框架,有望彻底改变这一局面——它让AI代理能够自动阅读自身的执行日志,识别失败模式,并自主写出更好的提示词。

元流程框架让AI代理自动优化提示词

Yoonho Lee提出的元流程概念有一个核心论断:瓶颈在于诊断上下文。大多数优化器会将之前的运行结果压缩成摘要统计信息,而元流程则赋予提议者(proposer agent)高达1000万token的原始执行日志进行检索。这意味着代理不仅能知道任务失败,还能精确看到失败发生在哪一步、输出了什么内容、遇到了什么错误。

这个主张只有在运行时能够廉价地产生、存储和提供这些日志时才有实际价值。Islo沙箱正好提供了三个关键原语:islo snapshot save用于创建可复现的评估环境;islo use --snapshot用于为每个候选方案创建廉价的并行分支;islo logs用于持久化诊断追踪。这三者与元流程的需求形成了一一映射关系。

团队用一个约200行的bash编排器将这些原语串联起来,包括一个确定性离线模拟器(使循环在几秒内可观察,无需消耗代理额度)和一个模式匹配的提议者,端到端地展示了优化信号。更巧妙的是,同一个编排器只需修改三行代码就能切换到真实的Claude/Islo后端。

在包含5个任务的保留测试集(FizzBuzz、素数判断、列表反转、偶数求和、回文检查)上,该循环在四次提议步骤中实现了从0/5到2/5、3/5、4/5,最终到5/5的进展,并在达到10次迭代上限之前收敛。这个结果验证了元流程框架的有效性。

一个有趣的现象是:当提议者针对FizzBuzz任务给出的提示中包含“inclusive”一词时,它意外地同时修复了偶数求和任务。这种免费的迁移修复之所以能被发现,完全是因为提议者读取了所有任务的完整执行日志,而不是只看摘要分数。这恰恰证明了保留原始诊断上下文的价值。

元流程框架对运行时的三个需求与Islo的原语完美匹配:用islo snapshot save meta-base一次性准备环境;用islo use mh-cand-7 --snapshot meta-base为每个候选方案并行分支;用islo logs mh-cand-7 --type agent获取持久化的诊断追踪。再加上Islo网关(默认拒绝出站流量以防止奖励作弊)和--source github://owner/repo(启动时克隆工作负载),整个框架的搭建几乎不费吹灰之力。

Harbor——Islo Labs的代理评估和RL环境框架——则作为工作负载规范插入。整个项目结构清晰:tasks/目录包含5个玩具级“SWE风格”任务,每个任务包含prompt.mdgrade.shharness/v0/包含故意平庸的基线系统提示词;bin/meta-harness是bash编排器;agent-sim.py是确定性代理替代(离线模式);proposer.py读取运行日志并生成新的提示词版本;viz/index.html提供实时仪表盘;runs/目录则存放每次迭代的结果。

代理本身是一个Python模拟器,被故意设计成有缺陷的——直到系统提示词包含正确的关键词才会正常工作。因此整个循环是确定性的、离线的,运行只需几秒,但其连接方式与部署到真实Claude/Islo环境时完全相同。提议者只有80行代码:读取runs/iter-N/,找出失败的任务,查找该任务缺失的提示词,将其追加到新的harness/v{N+1}/system.md中。这种简洁性让元流程框架具备了极高的实用价值。

# AI代理,提示词优化,元流程,Islo,自动化调试

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表