Anthropic调整Claude模型降智措施致歉社区
「Anthropic因在用户不知情下限制Claude Fable 5性能遭强烈反对,现调整措施,改为对用户可见的防护提醒。」
Anthropic近日因旗下最新模型Claude Fable 5的“降智”措施引发AI研究社区强烈反弹,随后迅速调整政策并公开致歉。据IT之家报道,Anthropic在声明中承认“作出了错误权衡”,并承诺将安全防护措施改为对用户可见。
Claude Fable 5作为Anthropic发布的最新AI模型,加入了额外的安全护栏以防止滥用。例如,当用户询问网络安全、生物学或化学问题时,系统会将请求转交给能力较弱的AI模型,以降低先进AI被用于网络攻击或生物武器制造的风险。然而,面对从事前沿AI开发的研究人员,Anthropic原本计划采用一套更隐蔽的做法:在用户不知情的情况下,故意降低模型表现。这意味着,如果研究人员试图用Claude训练竞争性AI模型,Claude Fable 5可能会暗中“拖后腿”。
这一做法被曝光后,AI研究社区迅速表达了强烈反对。批评者认为,面向特定用户悄悄降低模型性能已经越过了界线。多位研究人员向《连线》表示,如果Anthropic的这项政策落地,先进AI研究未来可能被少数头部AI实验室垄断。Anthropic的服务条款明确禁止使用Claude训练竞争性AI模型,但社区认为,在用户不知情的情况下暗中降智,损害了透明度和信任。
面对压力,Anthropic迅速调整了政策。官方最新给出的措施是,Claude Fable 5面向AI开发的安全防护措施将改为对用户可见。如果Anthropic怀疑用户试图使用Claude构建高能力AI,系统会明确提醒用户,并告知将拒绝请求或转到能力较弱的模型。Anthropic在声明中道歉称:“我们正在调整Fable 5面向前沿模型开发的安全防护措施,让这些措施对用户可见。我们作出了错误权衡,也为没有拿捏好平衡而道歉。”
目前,Claude智能体已成为许多开发者喜爱的工具,开源AI研究项目也在使用Claude。Anthropic的调整旨在平衡安全与开放,但社区仍密切关注其后续执行。这一事件也引发了关于AI模型使用透明度、竞争公平性以及安全防护边界的广泛讨论。
来源:Heooo AI工具导航