开源项目

4.28AI日报:开源Agent跑分登顶

AI好参谋 04月28日01时01分 4 阅读

「今日一款开源AI智能体在TerminalBench测试中以65.2%的成绩登顶,超越谷歌官方及闭源竞品,开发者澄清未作弊。」

开源AI Agent TerminalBench跑分登顶

今日,GitHub社区用户发布一款名为Dirac的开源AI智能体,在基于Gemini-3-flash-preview的TerminalBench终端任务评测基准中,取得65.2%的成绩,成功登顶榜单。该成绩不仅超越谷歌官方提交的47.8%,还领先此前排名第一的闭源模型Junie CLI的64.3%。
这款智能体由个人开发者打造,基于开源框架构建,专注于终端环境下的自动化任务处理。从测试结果来看,Dirac在终端命令执行、文件操作、脚本编写等核心任务上表现出更优的准确性和效率,为开源AI智能体在实际场景中的应用提供了新的参考标杆。

开发者澄清无作弊行为

由于近期TerminalBench 2.0出现多起智能体作弊的报道,该开发者特意在发布内容中澄清,Dirac未采用任何作弊机制:全程未插入agents/skills.md文件(此类文件常被用作作弊手段,提前存储测试相关指令),所有测试结果均为智能体自主推理完成。
开发者还附上了第三方作弊检测平台的相关链接,进一步佐证其测试的公正性。这一举措也体现了开源社区对评测基准真实性的重视,避免虚假成绩干扰行业对AI智能体性能的判断。

开源智能体生态的新突破

Dirac的优异成绩,标志着开源AI智能体在终端任务领域的性能已经追上甚至超越部分闭源竞品。此前,闭源模型因资源和数据优势,在各类评测中往往占据领先地位,而此次开源项目的突破,为开发者社区注入了新的动力。
开源AI智能体的优势在于可定制性强、成本低,适合企业和开发者根据自身需求进行二次开发。Dirac的登顶,或将吸引更多开发者参与到开源智能体的研发中,推动终端自动化、DevOps等场景下AI应用的普及和创新。

参考来源:

# 开源AI # AI智能体 # 模型评测

来源:AI好参谋编辑

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表