Anthropic新模型Fable安全限制引争议
「Anthropic发布网络安全模型Fable,因过度严格的安全限制引发研究人员不满,认为其误伤正常安全任务,影响实际使用。」
Anthropic于本周二发布了其最新模型Fable,将其定位为强大且备受期待的网络安全模型Mythos的公开且受限版本。然而,这一发布并未获得所有人的认可,反而因模型内置的严格安全限制引发了网络安全研究人员的广泛抱怨。
知名安全研究员、在IBM X-Force工作的Valentina “Chompie” Palmiotti在社交媒体上表示:“Fable拒绝了任何可能与网络安全沾边的请求,哪怕是像阅读博客文章这样无害的任务。”当提示词触发其安全护栏时,Fable会暂停对话并提示:“我们的安全措施将此消息标记为网络安全或生物学相关话题。”
这些护栏旨在限制Fable被用于开发恶意软件或破坏软件的风险,这是Anthropic长期以来的担忧。对生物学话题的限制则源于对开发生物武器的类似担忧。Anthropic在4月发布Mythos时,仅将其限制在少数公司和组织内,作为名为Project Glasswing的项目的一部分,旨在将该模型用于保护关键软件和基础设施。上周,Anthropic将Mythos的访问权限扩大到了15个国家的数百家组织。
尽管出发点是好的,但许多网络安全专家仍对限制的随意性感到不满。网络安全资深人士Matt Suiche向TechCrunch指出:“如果你要求它编写安全代码,它会认为这是网络安全相关工作,而非软件工程最佳实践,从而降低响应质量。”Fable被设定为在触发护栏时回退到Claude Opus 4.8。Suiche补充道:“这似乎是基于关键词的,任何涉及‘网络安全’词汇域的请求都会触发护栏。”
Suiche同时也表示理解:“毕竟我们还处于早期阶段,他们还在调整护栏。我相信随着时间推移,Anthropic和其他前沿模型公司会与新一代网络安全公司加强合作,护栏也会逐步演进。在发布时宁可多拦截一些人,也比漏掉风险要好,之后再逐步放宽限制。”
另一位研究人员在X上抱怨说:“甚至请求代码审查也会触发Fable的护栏。”这种过于宽泛的拦截策略让许多本应受益的安全专家感到沮丧,认为模型未能有效区分恶意攻击与日常安全研究工作。
除了模型内部的护栏,Anthropic还要求网络安全专业人士申请加入其网络安全验证计划。获批的申请者在使用Claude进行网络安全工作时将受到更少的限制。OpenAI也拥有类似的项目。然而,目前尚不清楚这些计划是否足以弥补Fable在实际应用中的不足。
Anthropic尚未立即回应置评请求。随着AI在网络安全领域的应用日益深入,如何在安全性与实用性之间取得平衡,成为Anthropic及其他AI公司必须面对的挑战。Fable的争议表明,过于严格的限制可能会阻碍技术发挥其应有的价值。
来源:Heooo AI工具导航