agent-desktop:AI原生桌面自动化CLI开源工具
「基于Rust的AI桌面自动化CLI工具开源,通过无障碍树实现跨应用交互,支持多语言调用」
近日,一款专为AI agents打造的原生桌面自动化CLI工具agent-desktop在GitHub开源,该工具基于Rust构建,通过操作系统无障碍树实现对任意应用的结构化访问,无需依赖截图、像素匹配或浏览器,为AI代理提供了高效的桌面交互能力。
作为Rust原生CLI工具,agent-desktop具备高性能、单二进制分发、无运行时依赖的特点,同时提供C-ABI动态链接库libagent_desktop_ffi,支持Python、Swift、Go、Ruby、Node、C等多语言直接调用,避免了每次调用都启动CLI进程的开销,适合集成到各类AI代理或桌面应用中。
agent-desktop内置53个命令,覆盖观察、交互、键盘、鼠标、通知、剪贴板、窗口管理等全场景桌面操作。其核心特性之一是渐进式骨架遍历,通过浅层次概览加针对性深度遍历的方式,可将密集型应用(如Slack、VS Code)的token使用量减少78%-96%,大幅降低AI代理的交互成本。
此外,工具还支持快照与元素引用功能,通过@e1、@e2等确定性元素引用实现AI优化的工作流;采用AX-first交互策略,优先使用无障碍API执行操作,仅在必要时回退到鼠标事件;输出结构化JSON格式,包含错误码和恢复提示,便于AI代理解析处理。
用户可通过npm全局安装agent-desktop,或通过cargo编译源码获取,工具要求Rust 1.78+及macOS 13.0+环境,需在系统隐私设置中授予无障碍权限。对于需要进程内调用的场景,可下载预构建的C-ABI动态库,按照官方文档实现多语言集成。针对密集型应用,用户可通过三步渐进式遍历流程:先获取浅层次概览,再定位感兴趣区域,最后对目标元素执行操作。
来源:Heooo AI工具导航