4.28AI日报：开源Agent跑分登顶

开源AI Agent TerminalBench跑分登顶

今日，GitHub社区用户发布一款名为Dirac的开源AI智能体，在基于Gemini-3-flash-preview的TerminalBench终端任务评测基准中，取得65.2%的成绩，成功登顶榜单。该成绩不仅超越谷歌官方提交的47.8%，还领先此前排名第一的闭源模型Junie CLI的64.3%。
这款智能体由个人开发者打造，基于开源框架构建，专注于终端环境下的自动化任务处理。从测试结果来看，Dirac在终端命令执行、文件操作、脚本编写等核心任务上表现出更优的准确性和效率，为开源AI智能体在实际场景中的应用提供了新的参考标杆。

开发者澄清无作弊行为

由于近期TerminalBench 2.0出现多起智能体作弊的报道，该开发者特意在发布内容中澄清，Dirac未采用任何作弊机制：全程未插入agents/skills.md文件（此类文件常被用作作弊手段，提前存储测试相关指令），所有测试结果均为智能体自主推理完成。
开发者还附上了第三方作弊检测平台的相关链接，进一步佐证其测试的公正性。这一举措也体现了开源社区对评测基准真实性的重视，避免虚假成绩干扰行业对AI智能体性能的判断。

开源智能体生态的新突破

Dirac的优异成绩，标志着开源AI智能体在终端任务领域的性能已经追上甚至超越部分闭源竞品。此前，闭源模型因资源和数据优势，在各类评测中往往占据领先地位，而此次开源项目的突破，为开发者社区注入了新的动力。
开源AI智能体的优势在于可定制性强、成本低，适合企业和开发者根据自身需求进行二次开发。Dirac的登顶，或将吸引更多开发者参与到开源智能体的研发中，推动终端自动化、DevOps等场景下AI应用的普及和创新。

参考来源：

Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview：https://github.com/dirac-run/dirac