返回
快讯

Anthropic 发布 Claude Fable 5 并强化网络防护

Anthropic 于 6 月 9 日推出 Claude Fable 5,并将带有网络安全防护的版本与仅向核准用户开放的 Claude Mythos 5 分开发布。Fable 5 会将可疑网络请求转交给 Claude Opus 4.8。Anthropic 同时要求相关模型 30 天数据保留,并建议及时修补高危 CVE、启用自动更新、MFA 和完整日志。

CVE-2026-4747

6 月 9 日,Anthropic 发布了 Claude Fable 5,这是其迄今为止能力最强的模型,现已正式向公众开放。与此同时,它还做了一件不寻常的事:它把一个模型作为两个产品发布,区分标准不是能力,而是一层安全分类器。

Fable 5 面向公众发布。它的孪生版本 Claude Mythos 5 使用相同的底层模型,但移除了网络安全防护,仅向经过审查的网络防御者和关键基础设施运营方开放。

Anthropic 将 Mythos 5 称为世界上最强的网络安全模型。

实际差别在于:Fable 5 会将被标记的网络、生物、化学和 distillation 请求路由给能力更弱的 Claude Opus 4.8,而 Mythos 5 则向经过审查的用户保留网络能力。两个模型的价格都是每百万输入 token 10 美元、每百万输出 token 50 美元,低于早前 Mythos Preview 的一半;Fable 5 现在已可通过 Claude API 使用。

它已包含在 Pro、Max、Team 以及按席位计费的 Enterprise 计划中,至 6 月 22 日前不收取额外费用,之后将转为按使用量积分计费。

Fable 5 的网络分类器如何工作

之所以要这样拆分,是因为 Mythos 级模型能相当有效地寻找并利用软件漏洞;按 Anthropic 的说法,如果不加控制地把这种能力交给普通公众,就会给攻击者带来显著提升。

其机制是一组分类器:用于监测滥用和 jailbreak 尝试的独立 AI 系统。当某个请求触发其中之一时,Fable 5 并不会直接拒绝,而是把响应交给 Opus 4.8,并告知用户已经发生了转交。在被标记的类别中,distillation 比较特殊:它指的是提取模型能力来训练竞争模型,Anthropic 会阻止这一行为,以防接近前沿水平的能力在没有附带防护措施的情况下泄露出去。

网络安全分类器是范围最广的一类。Anthropic 设计它不仅用于阻止 exploit 开发,也用于阻止一般性的进攻性网络任务:侦察、发现、横向移动,以及构成真实攻击的 agentic 步骤。

在一次内部评估中,Anthropic 将 Fable 5 设置为“阻止而不是回退”,且没有尝试规避防护,结果分类器阻止了模型在这些任务上取得任何进展。另一家外部合作方发现,Fable 5 在网络攻击规划、exploit 开发或防御规避方面,对 30 种不同的公开 jailbreak 技术都没有在单轮请求中作出有害响应。

代价是误报。Anthropic 为了尽快发布,采用了偏保守的防护调校,因此有时会拦截无害请求。公司表示,回退机制出现在不到 5% 的全部会话中,因此在超过 95% 的情况下,Fable 5 的表现就像没有网络限制的 Mythos 5。这个数字涵盖了所有回退,包括真实拦截,因此它限制的是总体中断比例,而不是单独测量误报率。Anthropic 表示,发布后会收紧防护并减少误报。

在稳健性方面,数据也很具体。一次外部 bug bounty 持续超过 1,000 小时,没有产出能够彻底绕过防护的通用 jailbreak、prompt 或 harness。外部红队在长篇 agentic 任务中也没有发现此类问题,不过 Anthropic 明确指出一个例外:英国的 AI Security Institute 在短暂的初始测试窗口内,朝着通用 jailbreak 方向取得了进展。Anthropic 承认,完全阻止通用 jailbreak 很可能是不可能的;其目标是让任何仍然存在的 jailbreak 足够慢、足够昂贵,以便在被大规模使用前被拦截。

为什么这种能力构成威胁

Anthropic 在 4 月已经阐明了为何需要谨慎对待这种模型。当时它通过 Project Glasswing 向一个有限群体发布了 Claude Mythos Preview。Anthropic 红队的技术说明值得一读。

在测试中,Mythos Preview 在用户指示下,识别并利用了每一个主要操作系统和每一个主要网页浏览器中的 zero-day 漏洞。它找到的最老漏洞来自 OpenBSD,一个主要以安全著称的操作系统,已有 27 年历史。它还利用一个 17 年前的 bug,自主为 FreeBSD 的 NFS 服务器编写了一个远程代码执行 exploit,该漏洞被标记为 CVE-2026-4747。

Anthropic 将结果描述为:对来自互联网任何地方的未认证攻击者而言,可获得完整 root 权限;NVD 的条目则更为克制,指出该 stack overflow 本身不要求客户端认证,但在 kgssapi.ko 模块加载时,对于能够向 NFS 服务器发送数据包的攻击者而言,可触发内核代码执行。

按 Anthropic 自身的说法,这些能力并非被明确训练出来,而是代码、推理和自主性整体提升的副作用;这些提升也让模型在修补补丁方面更强。红队给出的直接警告是:那些安全价值依赖于摩擦、而非硬性边界的缓解措施,面对能够规模化、机械化完成繁琐利用步骤的模型时,会变得弱得多。

像 KASLR 和 W^X 这样的硬技术边界仍然会抬高成本;这里的警告更窄,针对的是依赖攻击者耐心或人工操作的防御,而现在模型可以自行承担这些工作。

Mythos 5 延续了这些能力。Anthropic 表示,用户会发现它与 Mythos Preview 相当,或者稍强一些。

防御方真正面对的问题

防守方面的情况并非假设。Project Glasswing 开始后的前几周,Anthropic 和大约 50 个合作方使用 Mythos Preview,在系统性重要软件中发现了超过一万条高危或严重漏洞。

仅 Cloudflare 就发现了 2,000 个 bug,其中 400 个为高危或严重级别。Mozilla 使用较旧的 Opus 4.6 时,在 Firefox 148 中发现并修复了 271 个问题;而在 Firefox 150 中,它发现并修复了 271 个问题,这一数字比原先的版本高出十倍以上。Anthropic 说,在 Glasswing 之外也能看到同样的压力,例如厂商发布了异常庞大的安全更新。

但问题也在这里。发现漏洞如今既便宜又快,验证、分流和修补却不是,而且仍然依赖人工时间。

Anthropic 报告称,开源维护者已经被大量低质量、AI 生成的漏洞报告淹没,他们要求 Anthropic 放缓披露节奏,因为他们来不及写补丁。在 Glasswing 中,模型发现的高危或严重漏洞平均大约需要两周才能修补。

瓶颈已经从发现转移到修复,而公开披露与部署补丁之间的空档,就是攻击者活动的地方。红队的 N-day 实验进一步说明了这一点:只拿到一个已披露的 CVE 及其补丁,Mythos Preview 就能在不到一天内构建出可用的 Linux 权限提升 exploit,单次成本仅为几千美元或更低的算力。

对防守方而言,结论依然没变,只是时间窗口更短:应假定一个高危 CVE 可能在披露后数小时内就变成可用 exploit,而不是几周。这意味着,面向互联网的系统应优先走自动更新路径,并把包含 CVE 修复的依赖升级视为时间敏感工作,而不是积压事项。

MFA 和完整日志仍然是基础要求,这样即使漏掉一个补丁,也不会让攻击者轻易进入网络。Anthropic 还开放了 Cyber Verification Program,允许经过审查的安全专业人士在移除网络防护的情况下,合法使用其模型进行进攻性工作。

新的 30 天数据保留要求

Anthropic 也在改变它对 Mythos 类模型数据的处理方式。

它将要求 Fable 5、Mythos 5 以及未来同等级能力模型的所有流量,無论是自有还是第三方界面,均保留 30 天。公司表示,这些数据不会用于训练或任何非安全用途,所有人工访问都会记录;除非因安全调查或法律义务需要保留更久,否则 30 天后将删除。

其给出的理由是防御用途:这些数据有助于发现跨多次请求的新型攻击和 jailbreak。对数据处理要求严格的团队,在将敏感流量路由到这些模型之前,需要把这一保留窗口纳入考量。

Anthropic 计划通过一个 trusted-access 计划扩大 Mythos 5 的可用范围,并表示一旦算力跟上,目标是将 Fable 5 重新纳入订阅计划,届时在 6 月 22 日之后触发的使用量积分溢价将不再需要。

这次发布引出的更大问题,是 Anthropic 自 4 月以来一直在回避又不断提到的那个:其他实验室也会推出同样强大的模型,而且并非所有模型都会在前面加上一堵分类器墙。Glasswing 想争取的防守领先,只有在整个行业都真正使用它时才有意义。