元测试工具链：用10M Token日志自动优化AI Agent

在AI Agent开发中，测试工具链（harness）是围绕大语言模型（LLM）的提示词、工具和脚手架，而元测试工具链（meta-harness）则是一个自动改进测试工具链的循环。Islo.dev近日发布了一项创新实践，通过其沙箱环境实现了这一概念，并在5个基准任务上验证了其有效性。

Yoonho Lee提出的核心观点是：瓶颈在于诊断上下文。大多数优化器会将先前的运行压缩为摘要统计信息，而元测试工具链则允许提议者（proposer）访问高达10M Token的原始执行轨迹。这一主张只有在运行时能够廉价地生成、存储和提供这些轨迹时才有意义。Islo沙箱恰好提供了这些基础能力。

Islo的关键原语与元测试工具链的需求一一对应：islo snapshot save用于创建可重现的评估环境，islo use --snapshot用于为每个候选方案创建廉价的并行分支，islo logs用于持久化诊断轨迹。开发者通过一个约200行的bash编排器将这些原语串联起来，结合确定性离线模拟器和模式匹配提议者，端到端地展示了优化信号。

在包含FizzBuzz、素数、列表反转、偶数和、回文检查的5个保留任务套件上，该循环在4个提议步骤中从0/5→2/5→3/5→4/5→5/5，并收敛于10次迭代上限以下。一个有趣的发现是：当提议者的FizzBuzz提示中包含“inclusive”一词时，它意外地修复了偶数和任务——这是一个免费的迁移修复，只有在提议者读取所有轨迹而非摘要分数时才可见。

元测试工具链需要运行时的三个特性：可重现的评估环境、廉价的并行分支、持久的诊断轨迹。Islo的islo gateway（默认拒绝出站以防止奖励黑客攻击）和--source github://owner/repo（启动时克隆工作负载）使得集成几乎免费。Harbor——Islo Labs的Agent评估和RL环境框架——作为工作负载规范插入。

该工具链的架构包括：tasks/目录存放5个玩具“SWE风格”任务（每个包含prompt.md和grade.sh），harness/v0/包含基线系统提示（故意平庸），bin/meta-harness是bash编排器（评估|提议|循环|可视化），agent-sim.py是确定性Agent替身（离线模式），proposer.py读取runs/并输出harness/vN+1，viz/index.html提供实时仪表盘。

Agent是一个Python模拟器，故意存在缺陷——直到系统提示包含正确的提示关键词。循环因此是确定性和离线的，运行时间仅需数秒，但其接线方式与在Islo上针对真实Claude部署的完全相同。提议者仅80行代码：读取runs/iter-N/，找出失败的任务，查找该任务缺失的提示，并将其追加到新的harness/v{N+1}/system.md中。这一设计展示了元测试工具链在自动化Agent优化中的巨大潜力。