技术进展

AI自我改进加速:执行能力逼近人类,方向把控仍是优势

Heooo 06月10日15时54分 4 阅读

「Anthropic报告显示AI执行任务能力每4个月翻倍,但强调人类在方向把控上仍具优势,递归自我改进尚未完全实现。」

Anthropic于6月5日发布博文,深入探讨了人工智能在自我改进方面的最新进展。报告指出,AI系统的执行能力正在加速提升,甚至在某些任务上逼近或超过人类,但在研究判断、问题选择和方向把控等关键领域,人类仍然保持着显著优势。这一现象被Anthropic称为“递归自我改进”的前兆,即AI系统能够自主设计、训练、评估并迭代自己的下一代版本,形成自我优化的闭环。

根据Anthropic援引的公开基准数据,AI可稳定独立完成任务的时长大约每4个月翻倍。例如,2024年3月,Claude Opus 3可完成约4分钟的软件任务;到2025年3月,Claude Sonnet 3.7已能处理约1.5小时的任务;而到了2026年3月,Claude Opus 4.6已能处理长达12小时的任务。在SWE-bench基准测试中,模型在2年内从个位数成绩逼近饱和,展现了快速进步。CORE-Bench测试中,AI在2024年约20%的成功率,在15个月后已接近饱和。METR还发现,Claude Mythos Preview连续工作时长至少达到16小时,已接近现有任务集的可测上限。

在Anthropic内部,截至2026年5月,超过80%的合入代码由Claude编写。在Claude Code于2025年2月进入研究预览前,这一比例还只是个位数。随着模型从代码建议走向自主运行与长时任务处理,工程师人均日合入代码量明显提升,2026年Q2典型工程师较2024年达到8倍。不过文中也提醒,代码行数偏重数量,不能等同真实生产率。除代码产出外,Claude在执行复杂任务上的效果也更强。Anthropic员工2026年3月一项覆盖130人的调查显示,受访者估计在Mythos Preview帮助下,产出中位数约为无AI时的4倍。2026年4月,Claude还完成超过800项修复,将一类API错误压低到原来的1/1000,负责监督的工程师估计,若纯靠人工可能要花4年。

Anthropic文章反复强调,当前人类优势仍集中在研究判断、问题选择、结果信任与方向把控上。当前AI在“执行”上逼近甚至超过人类,但在“决定做什么”上仍有差距。Anthropic还透露AI自我改进并不会凭空爆发,它仍受算力约束。即便Claude能写更多代码,企业若想把这种闭环推向更高强度,仍需要更大规模计算资源。

# AI自我改进 # Anthropic # 执行能力 # 人类优势 # 递归自我改进

来源:Heooo AI工具导航