
Anthropic 在美国解除 jailbreak 相关出口管制后恢复 Claude Fable 5
美国商务部解除对 Fable 5 与 Mythos 5 的出口管制后,Anthropic 将 Claude Fable 5 恢复上线。事件源于一个 jailbreak 促使模型暴露软件缺陷,随后公司加强过滤,并与政府协调未来发布。
Anthropic 正在把 Claude Fable 5 恢复到全球线上。6 月 30 日,美国商务部解除了大约两周半前对 Fable 以及其管控更严格的同类模型 Mythos 5 所实施的出口管制。
Fable 5 将于 7 月 1 日星期三重新向用户开放,覆盖 Claude.ai、Claude Platform、Claude Code 和 Claude Cowork。
Export controls 会限制谁可以接收或使用某项 technology。6 月 12 日的命令要求 Anthropic 切断这两个模型对任何 foreign national 的访问,无论其身在美国境内还是境外,包括公司自己没有美国国籍的员工。
这项规定立刻生效,而公司没有可靠办法实时核实每个用户的 nationality,因此它把这两个模型对所有人都关闭了。
触发点是一种 jailbreak:一种能让模型绕过其安全规则的 prompt。Amazon 研究人员在 Fable 5 中发现了一个。按 Anthropic 的说法,这个 prompt 让模型标记出几处 software flaws,并且在其中一个案例里,写出展示某个 flaw 可能如何被滥用的代码。
Anthropic 对这项发现的严重性评价较低。公司表示,同样的请求在许多更弱的模型上也有效,包括其自己的 Claude Opus 4.8、OpenAI 的 GPT-5.5,以及中国的 Kimi K2.7。公司把被标记的行为称为常规的 defensive security work,而不是隐藏的 super-capability。
政府以及报告该 jailbreak 的合作方则认为,这严重到足以 justify emergency controls。
为了化解这一担忧,Anthropic 训练了一个新的 safety filter,称为 classifier,用来监测报告中所述的 exact technique 并加以阻止。公司表示,截至 6 月 30 日的说明,该机制现在能在超过 99% 的尝试中阻止这种 technique。被拦截的请求会转交给较弱的 Opus 4.8 处理,并且会通知用户。代价是正常 coding 和 debugging 中会出现更多 false alarms。
Mythos 5 是同一个 underlying model,但 safety guardrails 更少,目前仍然受到更严格的限制。6 月 26 日,约 100 家美国公司和联邦机构恢复了对它的访问,这些机构负责保护 critical infrastructure。Anthropic 表示,它仍在与政府合作,以扩大访问范围。
签署撤销决定的 Commerce Secretary Howard Lutnick 说,他的部门已经花了两周时间与 Anthropic 一起审查这些模型。在他的信中,公司同意自行 hunt for security problems、协调未来的 launches,并报告其发现的任何 malicious use。
据报道,这些谈判是由 co-founder Tom Brown 牵头,而不是 CEO Dario Amodei;后者在今年大部分时间里都与政府有冲突。
这场争议从一开始就很混乱。包括 The Wall Street Journal 在内的多份报道说,Amazon 的 research 以及 CEO Andy Jassy 的担忧,推动了最初的命令。前 AI czar David Sacks 指责 Anthropic “prioritized the continued offering of the consumer model over safety.” 另一些人则认为这是矫枉过正。
University of Sydney 的 AI governance researcher Francesco Bailo 告诉 Al Jazeera,这次撤销看起来像是政府承认自己做得太过火了;而一群 security leaders 也签署了一封公开信,要求解除这些 controls。
悬在这一切之上的还有竞争因素。这次暂停发生时,廉价且能力不弱的中国 open-source models 正在迅速追赶,而一些高管警告说,冻结美国模型等于把免费时间送给竞争对手,让他们赶上来。
Anthropic 还在提出一项业界一直缺乏的东西:一种共同方式来衡量一次 jailbreak 到底有多危险。它与 Amazon、Microsoft、Google 以及其他伙伴希望从四个方面给每个 jailbreak 打分:
Capability gain:jailbreak 让用户比他们原本已有的 tools 走得更远多少。
Breadth:同一个 trick 能解锁多少种不同的 attacks。
Ease of weaponization:把它转化成真实 attack 需要多少 skill 和 effort。
Discoverability:这个 trick 有多容易被找到或复制。
对于最糟糕的情况,比如能 enable 对 power grids 或 banks 发起 attacks 的 jailbreak,Anthropic 说,一旦 severity 被确认,就会立即开始部署 fixes,而且它正在组建一个团队,全天候监看 jailbreak reports。
公司还开设了一个 HackerOne program,让 researchers 报告新的 Fable 5 jailbreaks,并承诺让美国政府更早 access 未来 frontier models 的测试版本,在发布前进行测试。
Anthropic 并不是唯一处于这种位置的 lab。几天前,OpenAI 向一个小范围、经政府批准的群体预览了 GPT-5.6,而不是向公众开放,理由是同样的 dual-use 担忧:一个足够帮助 defenders 修补 bugs 的模型,也足够帮助 attackers 找到这些 bugs。
这种风险并非假设。就在今年春天早些时候,Anthropic 测试了一个更早的 Mythos model,该模型按指令能发现并利用遍布所有主要 operating system 和 browser 的 zero-day bugs,其中还包括 OpenBSD 中一个有 27 年历史的 flaw。它的 red team 在不到一天内就把新披露的 bugs 变成了可用的 exploits。
眼下的危机已经结束,但更大的问题还没有。6 月 2 日的一项 executive order 为公司在发布前自愿让 frontier models 接受审查建立了路径。它还设立了一个 classified benchmark,用来决定哪些 models 算作 “covered”,同时排除了任何强制性的 license 才能发布的要求。Fable 5 从未走过这条路径。
政府于是转而动用了 export controls。这一点说明得很清楚:当 Washington 想要快速应对一个 frontier model 时,它仍然没有一个具约束力的流程,只有临时拼凑出来的流程。