元流程框架让AI代理自动优化提示词

在AI代理开发领域，提示词工程一直是一项高度依赖人工经验的工作。开发者需要反复调试系统提示词，观察代理行为，再手动调整。Islo.dev团队近日展示的元流程（meta-harness）框架，有望彻底改变这一局面——它让AI代理能够自动阅读自身的执行日志，识别失败模式，并自主写出更好的提示词。

Yoonho Lee提出的元流程概念有一个核心论断：瓶颈在于诊断上下文。大多数优化器会将之前的运行结果压缩成摘要统计信息，而元流程则赋予提议者（proposer agent）高达1000万token的原始执行日志进行检索。这意味着代理不仅能知道任务失败，还能精确看到失败发生在哪一步、输出了什么内容、遇到了什么错误。

这个主张只有在运行时能够廉价地产生、存储和提供这些日志时才有实际价值。Islo沙箱正好提供了三个关键原语：islo snapshot save用于创建可复现的评估环境；islo use --snapshot用于为每个候选方案创建廉价的并行分支；islo logs用于持久化诊断追踪。这三者与元流程的需求形成了一一映射关系。

团队用一个约200行的bash编排器将这些原语串联起来，包括一个确定性离线模拟器（使循环在几秒内可观察，无需消耗代理额度）和一个模式匹配的提议者，端到端地展示了优化信号。更巧妙的是，同一个编排器只需修改三行代码就能切换到真实的Claude/Islo后端。

在包含5个任务的保留测试集（FizzBuzz、素数判断、列表反转、偶数求和、回文检查）上，该循环在四次提议步骤中实现了从0/5到2/5、3/5、4/5，最终到5/5的进展，并在达到10次迭代上限之前收敛。这个结果验证了元流程框架的有效性。

一个有趣的现象是：当提议者针对FizzBuzz任务给出的提示中包含“inclusive”一词时，它意外地同时修复了偶数求和任务。这种免费的迁移修复之所以能被发现，完全是因为提议者读取了所有任务的完整执行日志，而不是只看摘要分数。这恰恰证明了保留原始诊断上下文的价值。

元流程框架对运行时的三个需求与Islo的原语完美匹配：用islo snapshot save meta-base一次性准备环境；用islo use mh-cand-7 --snapshot meta-base为每个候选方案并行分支；用islo logs mh-cand-7 --type agent获取持久化的诊断追踪。再加上Islo网关（默认拒绝出站流量以防止奖励作弊）和--source github://owner/repo（启动时克隆工作负载），整个框架的搭建几乎不费吹灰之力。

Harbor——Islo Labs的代理评估和RL环境框架——则作为工作负载规范插入。整个项目结构清晰：tasks/目录包含5个玩具级“SWE风格”任务，每个任务包含prompt.md和grade.sh；harness/v0/包含故意平庸的基线系统提示词；bin/meta-harness是bash编排器；agent-sim.py是确定性代理替代（离线模式）；proposer.py读取运行日志并生成新的提示词版本；viz/index.html提供实时仪表盘；runs/目录则存放每次迭代的结果。

代理本身是一个Python模拟器，被故意设计成有缺陷的——直到系统提示词包含正确的关键词才会正常工作。因此整个循环是确定性的、离线的，运行只需几秒，但其连接方式与部署到真实Claude/Islo环境时完全相同。提议者只有80行代码：读取runs/iter-N/，找出失败的任务，查找该任务缺失的提示词，将其追加到新的harness/v{N+1}/system.md中。这种简洁性让元流程框架具备了极高的实用价值。