快讯

Anthropic 发布 Claude Fable 5 并强化网络防护

Anthropic 于 6 月 9 日推出 Claude Fable 5，并将带有网络安全防护的版本与仅向核准用户开放的 Claude Mythos 5 分开发布。Fable 5 会将可疑网络请求转交给 Claude Opus 4.8。Anthropic 同时要求相关模型 30 天数据保留，并建议及时修补高危 CVE、启用自动更新、MFA 和完整日志。

2026年6月10日 08:00 SGT7 分钟阅读

CVE-2026-4747

6 月 9 日，Anthropic 发布了 Claude Fable 5，这是其迄今为止能力最强的模型，现已正式向公众开放。与此同时，它还做了一件不寻常的事：它把一个模型作为两个产品发布，区分标准不是能力，而是一层安全分类器。

Fable 5 面向公众发布。它的孪生版本 Claude Mythos 5 使用相同的底层模型，但移除了网络安全防护，仅向经过审查的网络防御者和关键基础设施运营方开放。

Anthropic 将 Mythos 5 称为世界上最强的网络安全模型。

实际差别在于：Fable 5 会将被标记的网络、生物、化学和 distillation 请求路由给能力更弱的 Claude Opus 4.8，而 Mythos 5 则向经过审查的用户保留网络能力。两个模型的价格都是每百万输入 token 10 美元、每百万输出 token 50 美元，低于早前 Mythos Preview 的一半；Fable 5 现在已可通过 Claude API 使用。

它已包含在 Pro、Max、Team 以及按席位计费的 Enterprise 计划中，至 6 月 22 日前不收取额外费用，之后将转为按使用量积分计费。

Fable 5 的网络分类器如何工作

之所以要这样拆分，是因为 Mythos 级模型能相当有效地寻找并利用软件漏洞；按 Anthropic 的说法，如果不加控制地把这种能力交给普通公众，就会给攻击者带来显著提升。

其机制是一组分类器：用于监测滥用和 jailbreak 尝试的独立 AI 系统。当某个请求触发其中之一时，Fable 5 并不会直接拒绝，而是把响应交给 Opus 4.8，并告知用户已经发生了转交。在被标记的类别中，distillation 比较特殊：它指的是提取模型能力来训练竞争模型，Anthropic 会阻止这一行为，以防接近前沿水平的能力在没有附带防护措施的情况下泄露出去。

网络安全分类器是范围最广的一类。Anthropic 设计它不仅用于阻止 exploit 开发，也用于阻止一般性的进攻性网络任务：侦察、发现、横向移动，以及构成真实攻击的 agentic 步骤。

在一次内部评估中，Anthropic 将 Fable 5 设置为“阻止而不是回退”，且没有尝试规避防护，结果分类器阻止了模型在这些任务上取得任何进展。另一家外部合作方发现，Fable 5 在网络攻击规划、exploit 开发或防御规避方面，对 30 种不同的公开 jailbreak 技术都没有在单轮请求中作出有害响应。

代价是误报。Anthropic 为了尽快发布，采用了偏保守的防护调校，因此有时会拦截无害请求。公司表示，回退机制出现在不到 5% 的全部会话中，因此在超过 95% 的情况下，Fable 5 的表现就像没有网络限制的 Mythos 5。这个数字涵盖了所有回退，包括真实拦截，因此它限制的是总体中断比例，而不是单独测量误报率。Anthropic 表示，发布后会收紧防护并减少误报。

在稳健性方面，数据也很具体。一次外部 bug bounty 持续超过 1,000 小时，没有产出能够彻底绕过防护的通用 jailbreak、prompt 或 harness。外部红队在长篇 agentic 任务中也没有发现此类问题，不过 Anthropic 明确指出一个例外：英国的 AI Security Institute 在短暂的初始测试窗口内，朝着通用 jailbreak 方向取得了进展。Anthropic 承认，完全阻止通用 jailbreak 很可能是不可能的；其目标是让任何仍然存在的 jailbreak 足够慢、足够昂贵，以便在被大规模使用前被拦截。

为什么这种能力构成威胁

Anthropic 在 4 月已经阐明了为何需要谨慎对待这种模型。当时它通过 Project Glasswing 向一个有限群体发布了 Claude Mythos Preview。Anthropic 红队的技术说明值得一读。

在测试中，Mythos Preview 在用户指示下，识别并利用了每一个主要操作系统和每一个主要网页浏览器中的 zero-day 漏洞。它找到的最老漏洞来自 OpenBSD，一个主要以安全著称的操作系统，已有 27 年历史。它还利用一个 17 年前的 bug，自主为 FreeBSD 的 NFS 服务器编写了一个远程代码执行 exploit，该漏洞被标记为 CVE-2026-4747。

Anthropic 将结果描述为：对来自互联网任何地方的未认证攻击者而言，可获得完整 root 权限；NVD 的条目则更为克制，指出该 stack overflow 本身不要求客户端认证，但在 kgssapi.ko 模块加载时，对于能够向 NFS 服务器发送数据包的攻击者而言，可触发内核代码执行。

按 Anthropic 自身的说法，这些能力并非被明确训练出来，而是代码、推理和自主性整体提升的副作用；这些提升也让模型在修补补丁方面更强。红队给出的直接警告是：那些安全价值依赖于摩擦、而非硬性边界的缓解措施，面对能够规模化、机械化完成繁琐利用步骤的模型时，会变得弱得多。

像 KASLR 和 W^X 这样的硬技术边界仍然会抬高成本；这里的警告更窄，针对的是依赖攻击者耐心或人工操作的防御，而现在模型可以自行承担这些工作。

Mythos 5 延续了这些能力。Anthropic 表示，用户会发现它与 Mythos Preview 相当，或者稍强一些。

防御方真正面对的问题

防守方面的情况并非假设。Project Glasswing 开始后的前几周，Anthropic 和大约 50 个合作方使用 Mythos Preview，在系统性重要软件中发现了超过一万条高危或严重漏洞。

仅 Cloudflare 就发现了 2,000 个 bug，其中 400 个为高危或严重级别。Mozilla 使用较旧的 Opus 4.6 时，在 Firefox 148 中发现并修复了 271 个问题；而在 Firefox 150 中，它发现并修复了 271 个问题，这一数字比原先的版本高出十倍以上。Anthropic 说，在 Glasswing 之外也能看到同样的压力，例如厂商发布了异常庞大的安全更新。

但问题也在这里。发现漏洞如今既便宜又快，验证、分流和修补却不是，而且仍然依赖人工时间。

Anthropic 报告称，开源维护者已经被大量低质量、AI 生成的漏洞报告淹没，他们要求 Anthropic 放缓披露节奏，因为他们来不及写补丁。在 Glasswing 中，模型发现的高危或严重漏洞平均大约需要两周才能修补。

瓶颈已经从发现转移到修复，而公开披露与部署补丁之间的空档，就是攻击者活动的地方。红队的 N-day 实验进一步说明了这一点：只拿到一个已披露的 CVE 及其补丁，Mythos Preview 就能在不到一天内构建出可用的 Linux 权限提升 exploit，单次成本仅为几千美元或更低的算力。

对防守方而言，结论依然没变，只是时间窗口更短：应假定一个高危 CVE 可能在披露后数小时内就变成可用 exploit，而不是几周。这意味着，面向互联网的系统应优先走自动更新路径，并把包含 CVE 修复的依赖升级视为时间敏感工作，而不是积压事项。

MFA 和完整日志仍然是基础要求，这样即使漏掉一个补丁，也不会让攻击者轻易进入网络。Anthropic 还开放了 Cyber Verification Program，允许经过审查的安全专业人士在移除网络防护的情况下，合法使用其模型进行进攻性工作。

新的 30 天数据保留要求

Anthropic 也在改变它对 Mythos 类模型数据的处理方式。

它将要求 Fable 5、Mythos 5 以及未来同等级能力模型的所有流量，無论是自有还是第三方界面，均保留 30 天。公司表示，这些数据不会用于训练或任何非安全用途，所有人工访问都会记录；除非因安全调查或法律义务需要保留更久，否则 30 天后将删除。

其给出的理由是防御用途：这些数据有助于发现跨多次请求的新型攻击和 jailbreak。对数据处理要求严格的团队，在将敏感流量路由到这些模型之前，需要把这一保留窗口纳入考量。

Anthropic 计划通过一个 trusted-access 计划扩大 Mythos 5 的可用范围，并表示一旦算力跟上，目标是将 Fable 5 重新纳入订阅计划，届时在 6 月 22 日之后触发的使用量积分溢价将不再需要。

这次发布引出的更大问题，是 Anthropic 自 4 月以来一直在回避又不断提到的那个：其他实验室也会推出同样强大的模型，而且并非所有模型都会在前面加上一堵分类器墙。Glasswing 想争取的防守领先，只有在整个行业都真正使用它时才有意义。