微软开源Webwright,网页智能体转向代码驱动
开源项目

微软开源Webwright,网页智能体转向代码驱动

Heooo 05月27日03时00分 2 阅读

「微软研究院开源Webwright框架,让AI模型通过编写Playwright代码和执行Bash命令操控浏览器,取代传统点击预测模式,在基准测试中表现优异。」

微软研究院近日开源了全新的网页智能体框架Webwright,这一框架摒弃了当前主流的“截图/DOM点击”预测模式,转而让AI模型直接在终端内编写Playwright代码及执行Bash命令,以更高效、更具逻辑性的方式完成复杂网页任务。Webwright的设计理念是“一个终端胜过万千抽象”,其整个框架代码量仅约1000行,由三个核心模块构成:Runner(约150行)负责智能体循环的核心逻辑;Model Endpoint(约550行)提供统一的模型交互接口,支持OpenAI、Anthropic及OpenRouter等后端;Terminal Environment(约300行)提供一个隔离的终端执行环境,让模型在此运行Playwright脚本、查看日志、分析截图并执行调试。

微软开源Webwright,网页智能体转向代码驱动

当前主流智能体通过不断预测“点击、滚动、输入”来操作浏览器,这种模式存在效率低、状态维持困难等瓶颈。Webwright的代码驱动模式带来了显著优势:逻辑复用方面,每次操作生成的都是可重用的RPA脚本,而非一次性点击记录,这些脚本可在Claude Code、Codex等其他工具中被调用;复杂逻辑处理方面,代码天然支持循环、函数与逻辑分支,对于填写表单、跨页面操作、条件跳转等长链路任务,代码的表达力远超简单的动作堆砌;工程化纠错方面,通过执行报错后的堆栈分析,模型可以自主进入“写代码-运行-报错-修复”的迭代循环,极大提升了任务成功率。

针对智能体常遇到的两大痛点,Webwright引入了针对性方案:门控自检机制防止模型“幻觉性”宣告任务完成,模型必须先生成一份“自检配置”,并在干净的环境中运行最终脚本,通过自我反思判断任务是否真正达成,才能输出完成标记;历史压缩为应对长轨迹导致的上下文超载,系统每执行20步就会将历史对话压缩为一份概要摘要,确保上下文窗口始终聚焦核心进展。

微软开源Webwright,网页智能体转向代码驱动

在2026年5月的基准测试中,Webwright表现优异:基于GPT-5.4的Webwright在Online-Mind2Web基准测试中,于100步预算内达到了86.67%的准确率,在同类开源方案中位居前列;在Odysseys长链路任务中,面对平均272词的复杂指令,Webwright + GPT-5.4取得了60.1%的得分,相较于基础GPT-5.4(33.5%)实现了约81.5%的性能增幅,并超越了4月榜单的冠军模型Opus4.6(44.5%)。Webwright的出现展示了一个重要趋势:随着模型编程能力的提升,智能体正在向“开发者范式”转型。通过将浏览器视为一个可编程的端点,而非单纯的交互界面,Webwright成功将AI网页任务的执行效率与鲁棒性提升到了新的高度。目前该项目已在GitHub开源,对于广大开发者而言,Webwright不仅是一个智能体框架,更是一个能帮助自动编写、维护和打包自动化脚本的“超级员工”。

# 微软 # Webwright # 开源 # 网页智能体 # Playwright

来源:Heooo AI工具导航