AI自我改进加速：执行能力逼近人类，方向把控仍是优势

Anthropic于6月5日发布博文，深入探讨了人工智能在自我改进方面的最新进展。报告指出，AI系统的执行能力正在加速提升，甚至在某些任务上逼近或超过人类，但在研究判断、问题选择和方向把控等关键领域，人类仍然保持着显著优势。这一现象被Anthropic称为“递归自我改进”的前兆，即AI系统能够自主设计、训练、评估并迭代自己的下一代版本，形成自我优化的闭环。

根据Anthropic援引的公开基准数据，AI可稳定独立完成任务的时长大约每4个月翻倍。例如，2024年3月，Claude Opus 3可完成约4分钟的软件任务；到2025年3月，Claude Sonnet 3.7已能处理约1.5小时的任务；而到了2026年3月，Claude Opus 4.6已能处理长达12小时的任务。在SWE-bench基准测试中，模型在2年内从个位数成绩逼近饱和，展现了快速进步。CORE-Bench测试中，AI在2024年约20%的成功率，在15个月后已接近饱和。METR还发现，Claude Mythos Preview连续工作时长至少达到16小时，已接近现有任务集的可测上限。

在Anthropic内部，截至2026年5月，超过80%的合入代码由Claude编写。在Claude Code于2025年2月进入研究预览前，这一比例还只是个位数。随着模型从代码建议走向自主运行与长时任务处理，工程师人均日合入代码量明显提升，2026年Q2典型工程师较2024年达到8倍。不过文中也提醒，代码行数偏重数量，不能等同真实生产率。除代码产出外，Claude在执行复杂任务上的效果也更强。Anthropic员工2026年3月一项覆盖130人的调查显示，受访者估计在Mythos Preview帮助下，产出中位数约为无AI时的4倍。2026年4月，Claude还完成超过800项修复，将一类API错误压低到原来的1/1000，负责监督的工程师估计，若纯靠人工可能要花4年。

Anthropic文章反复强调，当前人类优势仍集中在研究判断、问题选择、结果信任与方向把控上。当前AI在“执行”上逼近甚至超过人类，但在“决定做什么”上仍有差距。Anthropic还透露AI自我改进并不会凭空爆发，它仍受算力约束。即便Claude能写更多代码，企业若想把这种闭环推向更高强度，仍需要更大规模计算资源。