元测试工具链:用10M Token日志自动优化AI Agent
技术进展

元测试工具链:用10M Token日志自动优化AI Agent

Heooo 05月06日18时04分 1 阅读

「Islo.dev发布元测试工具链,通过10M Token原始执行日志自动优化Agent提示词,在5个任务上从0/5提升至5/5,展现诊断上下文驱动的自动化能力。」

在AI Agent开发中,测试工具链(harness)是围绕大语言模型(LLM)的提示词、工具和脚手架,而元测试工具链(meta-harness)则是一个自动改进测试工具链的循环。Islo.dev近日发布了一项创新实践,通过其沙箱环境实现了这一概念,并在5个基准任务上验证了其有效性。

Yoonho Lee提出的核心观点是:瓶颈在于诊断上下文。大多数优化器会将先前的运行压缩为摘要统计信息,而元测试工具链则允许提议者(proposer)访问高达10M Token的原始执行轨迹。这一主张只有在运行时能够廉价地生成、存储和提供这些轨迹时才有意义。Islo沙箱恰好提供了这些基础能力。

Islo元测试工具链架构图

Islo的关键原语与元测试工具链的需求一一对应:islo snapshot save用于创建可重现的评估环境,islo use --snapshot用于为每个候选方案创建廉价的并行分支,islo logs用于持久化诊断轨迹。开发者通过一个约200行的bash编排器将这些原语串联起来,结合确定性离线模拟器和模式匹配提议者,端到端地展示了优化信号。

在包含FizzBuzz、素数、列表反转、偶数和、回文检查的5个保留任务套件上,该循环在4个提议步骤中从0/5→2/5→3/5→4/5→5/5,并收敛于10次迭代上限以下。一个有趣的发现是:当提议者的FizzBuzz提示中包含“inclusive”一词时,它意外地修复了偶数和任务——这是一个免费的迁移修复,只有在提议者读取所有轨迹而非摘要分数时才可见。

元测试工具链需要运行时的三个特性:可重现的评估环境、廉价的并行分支、持久的诊断轨迹。Islo的islo gateway(默认拒绝出站以防止奖励黑客攻击)和--source github://owner/repo(启动时克隆工作负载)使得集成几乎免费。Harbor——Islo Labs的Agent评估和RL环境框架——作为工作负载规范插入。

该工具链的架构包括:tasks/目录存放5个玩具“SWE风格”任务(每个包含prompt.md和grade.sh),harness/v0/包含基线系统提示(故意平庸),bin/meta-harness是bash编排器(评估|提议|循环|可视化),agent-sim.py是确定性Agent替身(离线模式),proposer.py读取runs/并输出harness/vN+1viz/index.html提供实时仪表盘。

Agent是一个Python模拟器,故意存在缺陷——直到系统提示包含正确的提示关键词。循环因此是确定性和离线的,运行时间仅需数秒,但其接线方式与在Islo上针对真实Claude部署的完全相同。提议者仅80行代码:读取runs/iter-N/,找出失败的任务,查找该任务缺失的提示,并将其追加到新的harness/v{N+1}/system.md中。这一设计展示了元测试工具链在自动化Agent优化中的巨大潜力。

# 元测试工具链 # AI Agent优化 # Islo.dev # 诊断日志 # 自动化提示词

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表