Anthropic最强AI模型遭政府紧急叫停

Anthropic公司近日遭遇重大挫折：美国政府下令要求其立即关闭两款最强大的AI模型——Claude Fable 5与Claude Mythos 5的全球访问权限。这一指令并非针对特定外国用户，而是全面封锁，影响了所有用户。Anthropic在社交媒体上表示已服从命令，但明确表达了不满，认为政府的判断有误。

Mythos 5是Anthropic目前能力最强的模型，早在今年4月初便已预览。由于其展现出的卓越软件安全漏洞发现能力，Anthropic一直对其访问权限进行严格限制。据公司透露，Mythos 5在测试中成功识别了所有主流操作系统和网页浏览器的安全缺陷。因此，Anthropic并未广泛发布该模型，而是推出了名为Project Glasswing的受控项目，仅与约50家经过严格审查的组织共享，包括亚马逊、苹果、谷歌、微软和CrowdStrike，专门用于防御性网络安全工作。

而Fable 5则是Anthropic为应对商业压力而推出的版本。它本质上是Mythos 5的“安全版”，通过设置护栏，在网络安全、生物学等高风险领域限制模型输出，声称足以安全地公开发布。根据AI技术性能追踪机构Vals AI的基准测试，Fable 5是当时面向公众开放的最强AI模型。

政府的指令被包装为出口管制行动，旨在限制外国国民访问这些模型。然而，Anthropic在一篇长篇博客文章中表示，其理解政府背后的真正担忧是Fable 5存在所谓的“越狱”风险。Anthropic指出，截至目前，政府仅提供了口头证据，证明存在一种“潜在的非通用性越狱”，即通过特定提示让模型读取某段代码库并识别漏洞。但Anthropic强调，这种能力在包括OpenAI的GPT-5.5在内的其他公开模型中已经广泛存在，并且被网络安全专业人士日常用于防御目的。

Anthropic AI模型示意图

Anthropic进一步辩解称，其最强大的安全机制是通过独立于模型本身的分类器系统运行的。这意味着，即使有人成功说服Fable 5绕过拒绝回答的机制，针对最危险输出的底层保护依然有效。公司还提到，对近期使用情况的审查并未发现任何成功绕过这些安全防护并产生真正有害内容的证据。

显然，这些论证并未能阻止政府的行动。Anthropic毫不掩饰其挫败感，认为这一决定是“错误的”。这一事件在AI行业引发了广泛讨论：当AI模型的能力日益强大，尤其是其在网络安全等敏感领域展现出超常能力时，如何在技术创新与安全监管之间取得平衡？Anthropic的案例表明，即便企业主动采取严格的内部安全措施（如Project Glasswing），仍可能面临来自外部监管的强力干预。这无疑将为后续AI模型的发布与治理模式带来深远影响。