快讯

Anthropic 在美国解除 jailbreak 相关出口管制后恢复 Claude Fable 5

美国商务部解除对 Fable 5 与 Mythos 5 的出口管制后，Anthropic 将 Claude Fable 5 恢复上线。事件源于一个 jailbreak 促使模型暴露软件缺陷，随后公司加强过滤，并与政府协调未来发布。

2026年7月1日 08:00 SGT6 分钟阅读

Anthropic 正在把 Claude Fable 5 恢复到全球线上。6 月 30 日，美国商务部解除了大约两周半前对 Fable 以及其管控更严格的同类模型 Mythos 5 所实施的出口管制。

Fable 5 将于 7 月 1 日星期三重新向用户开放，覆盖 Claude.ai、Claude Platform、Claude Code 和 Claude Cowork。

Export controls 会限制谁可以接收或使用某项 technology。6 月 12 日的命令要求 Anthropic 切断这两个模型对任何 foreign national 的访问，无论其身在美国境内还是境外，包括公司自己没有美国国籍的员工。

这项规定立刻生效，而公司没有可靠办法实时核实每个用户的 nationality，因此它把这两个模型对所有人都关闭了。

触发点是一种 jailbreak：一种能让模型绕过其安全规则的 prompt。Amazon 研究人员在 Fable 5 中发现了一个。按 Anthropic 的说法，这个 prompt 让模型标记出几处 software flaws，并且在其中一个案例里，写出展示某个 flaw 可能如何被滥用的代码。

Anthropic 对这项发现的严重性评价较低。公司表示，同样的请求在许多更弱的模型上也有效，包括其自己的 Claude Opus 4.8、OpenAI 的 GPT-5.5，以及中国的 Kimi K2.7。公司把被标记的行为称为常规的 defensive security work，而不是隐藏的 super-capability。

政府以及报告该 jailbreak 的合作方则认为，这严重到足以 justify emergency controls。

为了化解这一担忧，Anthropic 训练了一个新的 safety filter，称为 classifier，用来监测报告中所述的 exact technique 并加以阻止。公司表示，截至 6 月 30 日的说明，该机制现在能在超过 99% 的尝试中阻止这种 technique。被拦截的请求会转交给较弱的 Opus 4.8 处理，并且会通知用户。代价是正常 coding 和 debugging 中会出现更多 false alarms。

Mythos 5 是同一个 underlying model，但 safety guardrails 更少，目前仍然受到更严格的限制。6 月 26 日，约 100 家美国公司和联邦机构恢复了对它的访问，这些机构负责保护 critical infrastructure。Anthropic 表示，它仍在与政府合作，以扩大访问范围。

签署撤销决定的 Commerce Secretary Howard Lutnick 说，他的部门已经花了两周时间与 Anthropic 一起审查这些模型。在他的信中，公司同意自行 hunt for security problems、协调未来的 launches，并报告其发现的任何 malicious use。

据报道，这些谈判是由 co-founder Tom Brown 牵头，而不是 CEO Dario Amodei；后者在今年大部分时间里都与政府有冲突。

这场争议从一开始就很混乱。包括 The Wall Street Journal 在内的多份报道说，Amazon 的 research 以及 CEO Andy Jassy 的担忧，推动了最初的命令。前 AI czar David Sacks 指责 Anthropic “prioritized the continued offering of the consumer model over safety.” 另一些人则认为这是矫枉过正。

University of Sydney 的 AI governance researcher Francesco Bailo 告诉 Al Jazeera，这次撤销看起来像是政府承认自己做得太过火了；而一群 security leaders 也签署了一封公开信，要求解除这些 controls。

悬在这一切之上的还有竞争因素。这次暂停发生时，廉价且能力不弱的中国 open-source models 正在迅速追赶，而一些高管警告说，冻结美国模型等于把免费时间送给竞争对手，让他们赶上来。

Anthropic 还在提出一项业界一直缺乏的东西：一种共同方式来衡量一次 jailbreak 到底有多危险。它与 Amazon、Microsoft、Google 以及其他伙伴希望从四个方面给每个 jailbreak 打分：

Capability gain：jailbreak 让用户比他们原本已有的 tools 走得更远多少。

Breadth：同一个 trick 能解锁多少种不同的 attacks。

Ease of weaponization：把它转化成真实 attack 需要多少 skill 和 effort。

Discoverability：这个 trick 有多容易被找到或复制。

对于最糟糕的情况，比如能 enable 对 power grids 或 banks 发起 attacks 的 jailbreak，Anthropic 说，一旦 severity 被确认，就会立即开始部署 fixes，而且它正在组建一个团队，全天候监看 jailbreak reports。

公司还开设了一个 HackerOne program，让 researchers 报告新的 Fable 5 jailbreaks，并承诺让美国政府更早 access 未来 frontier models 的测试版本，在发布前进行测试。

Anthropic 并不是唯一处于这种位置的 lab。几天前，OpenAI 向一个小范围、经政府批准的群体预览了 GPT-5.6，而不是向公众开放，理由是同样的 dual-use 担忧：一个足够帮助 defenders 修补 bugs 的模型，也足够帮助 attackers 找到这些 bugs。

这种风险并非假设。就在今年春天早些时候，Anthropic 测试了一个更早的 Mythos model，该模型按指令能发现并利用遍布所有主要 operating system 和 browser 的 zero-day bugs，其中还包括 OpenBSD 中一个有 27 年历史的 flaw。它的 red team 在不到一天内就把新披露的 bugs 变成了可用的 exploits。

眼下的危机已经结束，但更大的问题还没有。6 月 2 日的一项 executive order 为公司在发布前自愿让 frontier models 接受审查建立了路径。它还设立了一个 classified benchmark，用来决定哪些 models 算作 “covered”，同时排除了任何强制性的 license 才能发布的要求。Fable 5 从未走过这条路径。

政府于是转而动用了 export controls。这一点说明得很清楚：当 Washington 想要快速应对一个 frontier model 时，它仍然没有一个具约束力的流程，只有临时拼凑出来的流程。