Anthropic调整Claude模型降智措施致歉社区

Anthropic近日因旗下最新模型Claude Fable 5的“降智”措施引发AI研究社区强烈反弹，随后迅速调整政策并公开致歉。据IT之家报道，Anthropic在声明中承认“作出了错误权衡”，并承诺将安全防护措施改为对用户可见。

Claude Fable 5作为Anthropic发布的最新AI模型，加入了额外的安全护栏以防止滥用。例如，当用户询问网络安全、生物学或化学问题时，系统会将请求转交给能力较弱的AI模型，以降低先进AI被用于网络攻击或生物武器制造的风险。然而，面对从事前沿AI开发的研究人员，Anthropic原本计划采用一套更隐蔽的做法：在用户不知情的情况下，故意降低模型表现。这意味着，如果研究人员试图用Claude训练竞争性AI模型，Claude Fable 5可能会暗中“拖后腿”。

这一做法被曝光后，AI研究社区迅速表达了强烈反对。批评者认为，面向特定用户悄悄降低模型性能已经越过了界线。多位研究人员向《连线》表示，如果Anthropic的这项政策落地，先进AI研究未来可能被少数头部AI实验室垄断。Anthropic的服务条款明确禁止使用Claude训练竞争性AI模型，但社区认为，在用户不知情的情况下暗中降智，损害了透明度和信任。

面对压力，Anthropic迅速调整了政策。官方最新给出的措施是，Claude Fable 5面向AI开发的安全防护措施将改为对用户可见。如果Anthropic怀疑用户试图使用Claude构建高能力AI，系统会明确提醒用户，并告知将拒绝请求或转到能力较弱的模型。Anthropic在声明中道歉称：“我们正在调整Fable 5面向前沿模型开发的安全防护措施，让这些措施对用户可见。我们作出了错误权衡，也为没有拿捏好平衡而道歉。”

目前，Claude智能体已成为许多开发者喜爱的工具，开源AI研究项目也在使用Claude。Anthropic的调整旨在平衡安全与开放，但社区仍密切关注其后续执行。这一事件也引发了关于AI模型使用透明度、竞争公平性以及安全防护边界的广泛讨论。