AI原生桌面自动化CLI工具agent-desktop开源
开源项目

AI原生桌面自动化CLI工具agent-desktop开源

Heooo 05月03日03时04分 3 阅读

「基于Rust开发的AI原生桌面自动化CLI工具agent-desktop开源,依托系统无障碍树实现跨应用交互,支持多语言调用」

近日,一款专为AI智能体设计的原生桌面自动化CLI工具agent-desktop在GitHub开源,该工具基于Rust语言构建,通过操作系统无障碍树实现对任意应用的结构化访问,无需依赖截图、像素匹配或浏览器,为AI智能体提供了高效可靠的桌面交互能力。

AI原生桌面自动化CLI工具agent-desktop开源

agent-desktop的核心优势在于其原生Rust架构带来的高性能与轻量化——作为单二进制文件,它无需任何运行时依赖,启动速度快、资源占用低。同时,工具提供了C-ABI cdylib(libagent_desktop_ffi),支持Python、Swift、Go、Ruby、Node、C等多种编程语言直接加载调用,避免了每次调用都fork CLI的性能损耗,特别适合需要高频交互的AI智能体场景。

AI原生桌面自动化CLI工具agent-desktop开源

目前,agent-desktop已内置53个命令,覆盖了观察、交互、键盘、鼠标、通知、剪贴板、窗口管理等全场景桌面操作需求。其中,渐进式骨架遍历是其针对AI智能体优化的核心功能之一:通过先获取浅层概览,再针对目标区域深度钻取的方式,可在Slack、VS Code、Notion等密集型应用中实现78%至96%的token用量缩减,大幅降低AI智能体的交互成本与响应延迟。

AI原生桌面自动化CLI工具agent-desktop开源

为了进一步适配AI智能体的工作流,agent-desktop设计了快照与引用功能,通过确定性元素引用(如@e1、@e2)让AI智能体可以精准定位并复用界面元素,无需重复识别。此外,工具采用AX优先交互策略:所有操作会优先尝试使用纯无障碍API执行,只有当API无法实现时才会回退到鼠标事件,确保操作的稳定性与准确性。

AI原生桌面自动化CLI工具agent-desktop开源

agent-desktop的输出采用结构化JSON格式,包含错误代码与恢复提示,便于AI智能体解析和处理异常情况。兼容性方面,它支持所有具备无障碍树的应用,包括Finder、Safari、系统设置、Xcode、Slack等几乎所有macOS主流应用,覆盖了日常办公与开发的全场景。

AI原生桌面自动化CLI工具agent-desktop开源

用户可以通过多种方式安装agent-desktop:最便捷的方式是使用npm全局安装,命令为npm install -g agent-desktop,工具会自动下载预编译二进制文件;也可以直接使用npx临时调用,无需安装;对于开发者,还可以通过克隆GitHub仓库,使用Cargo编译源码,命令如下:
git clone https://github.com/lahfir/agent-desktop
cd agent-desktop
cargo build --release
cp target/release/agent-desktop /usr/local/bin/

AI原生桌面自动化CLI工具agent-desktop开源

需要注意的是,agent-desktop运行需要macOS 13.0+系统以及Rust 1.78+环境,并且需要获取系统无障碍权限。用户可以通过系统设置>隐私与安全>无障碍添加终端应用,也可以执行agent-desktop permissions --request触发系统权限申请对话框。

AI原生桌面自动化CLI工具agent-desktop开源

对于需要进程内调用的场景,比如Python智能体、Swift应用、Go服务等,agent-desktop的每个GitHub Release都会附带预编译的C-ABI cdylib文件,包含lib/libagent_desktop_ffi.{dylib,so,dll}、include/agent_desktop.h、LICENSE和README。用户可以通过dlopen加载库并调用函数,无需每次调用都fork进程。以Python为例,最小化调用示例如下:
import ctypes
lib = ctypes.CDLL("./lib/libagent_desktop_ffi.dylib")
lib.ad_adapter_create.restype = ctypes.c_void_p
adapter = lib.ad_adapter_create()
# ... call ad_list_apps / ad_get_tree / ad_execute_action, see docs below
lib.ad_adapter_destroy(adapter)

AI原生桌面自动化CLI工具agent-desktop开源

agent-desktop的开源为AI智能体的桌面自动化提供了一种全新的高效方案,其基于无障碍树的结构化访问、多语言支持、token优化等特性,解决了传统桌面自动化工具依赖视觉识别的不稳定问题,同时降低了AI智能体的交互成本。目前该项目已在GitHub开源,开发者可以根据需求进行二次开发或集成到自己的AI智能体系统中。

# AI自动化 # Rust开发 # 开源工具 # 桌面自动化 # AI智能体

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表