Anthropic 玻璃翼计划深度解析:当最锋利的矛变成最坚固的盾
背景介绍
2026年4月7日,Anthropic干了一件让整个安全圈睡不着觉的事。
他们发布了一款名为 Claude Mythos Preview 的通用大模型——不是专门为安全任务训练的,但在漏洞挖掘和代码利用方面的能力,已经能"超越除最顶尖人类之外的所有人"。
紧接着,他们宣布启动 Project Glasswing(玻璃翼计划),拉来了亚马逊、苹果、谷歌、微软、英伟达、思科、CrowdStrike、摩根大通、Palo Alto Networks、博通、Linux 基金会,12家机构联合起来,用 Claude Mythos 武装自己的安全防线。
这件事有意思的地方在于:Anthropic 亲手造了一把能攻破全球主要系统的矛,然后用这把矛去武装全球最重要的防守方。
这不是一个单纯的技术发布。这是一个地缘政治级别的安全博弈。
一、Mythos:从泄露到官宣,一把被捂不住的矛
1.1 先泄露,再官宣
Claude Mythos Preview 的发布路径本身就是一个故事。
2026年3月初,Claude 模型的核心源码被"人为错误"泄露到 GitHub 上。安全研究员们在泄露代码中注意到了一些奇怪的模型架构描述和能力评测结果——暗示 Anthropic 正在训练一款代码能力异常强大的模型,内部代号就是 Mythos。
安全社区当时就炸了锅:Anthropic 手里还藏着这样一张牌?
4月7日,Anthropic 正式官宣。不是主动发布,而是被迫回应——因为源码已经泄露了,藏着掖着反而显得心虚。
官宣之后,大家才意识到泄露代码里描述的那些能力,没有一丝夸张。
1.2 性能数据:吊打 Opus 4.6
Claude Mythos Preview 在官方公布的基准测试中,性能数据是这样的:
| 基准测试 | 提升幅度 | 含义 |
|---|---|---|
| SWE-bench Pro(修复真实软件bug) | +24% | 在真实开源项目中修复bug的能力 |
| SWE-bench Verified(对抗性bug集) | +13% | 在高难度对抗样本上的表现 |
| Terminal-Bench 2.0(AI Agent操作电脑) | +17% | 自主操控计算机系统的能力 |
对比基准:Claude Opus 4(之前最强模型)
简单说:Mythos 不是 Opus 的增量升级,是代差级别的跃升。
更让人后背发凉的是,这些测试只测了 Mythos 的"修bug"能力,没测它能不能主动"制造bug"。而 Anthropic 的内部测试已经证明:Mythos 可以自主发现零日漏洞、自主构建漏洞利用链、自主编写攻击代码实现权限提升和远程代码执行。
1.3 一个通用模型的安全能力
最让人意外的是:Claude Mythos 不是一个安全专项模型。
它就是一个通用大模型,代码能力、推理能力、Agent 能力都很强。只是在测试过程中,Anthropic 发现它的安全能力已经突破了一个危险的临界点。
这意味着什么?
通用大模型的能力天花板在安全领域的映射,远比所有人预期的都要高。
Anthropic CEO 在公告中说了一句意味深长的话:"我们训练模型不是为了让它做安全测试,但它的能力已经到了这个程度,我们必须正面应对。"
二、Project Glasswing:12家机构的联防体系
2.1 豪华的参与者阵容
Project Glasswing 的创始合作方名单,单独拎出来就是一个全球科技权力的核心版图:
- AWS(亚马逊云)
- Apple(苹果)
- Google(谷歌)
- Microsoft(微软)
- NVIDIA(英伟达)
- Cisco(思科)
- CrowdStrike(终端安全巨头)
- Palo Alto Networks(网络安全巨头)
- JPMorgan Chase(摩根大通,金融基础设施)
- Broadcom(博通,芯片+企业软件)
- Linux Foundation(开源基础设施)
- Anthropic 本身
这12家机构的业务覆盖了:云基础设施、操作系统、浏览器、芯片、安全软件、金融系统、开源生态。
换句话说,全球数字基础设施的最核心层,都在同一个安全联盟里了。
2.2 Anthropic 拿出了多少资源?
资金层面:
- 1亿美元的 Claude Mythos Preview 使用额度(分配给合作伙伴)
- 400万美元捐赠给开源安全组织(直接打给 Linux 基金会等)
技术层面:
- 定向开放 Claude Mythos Preview API 访问权限
- 提供负责任漏洞披露(Responsible Disclosure)的协调流程
- 协助合作伙伴将发现的高危漏洞同步给相关厂商修复
参与条件:
- 合作伙伴需要将发现的安全漏洞成果与更广泛的行业共享(不能捂着不用)
- 访问权限仅限机构内部安全团队使用,禁止用于商业安全产品销售
2.3 Glasswing 的运作机制
根据 Anthropic 公布的计划,Project Glasswing 的运作机制分为三层:
第一层:漏洞发现
参与者用 Claude Mythos 扫描自己的软件栈——操作系统、浏览器、数据库、核心依赖库。这不是一次性的渗透测试,而是持续性的扫描作业。Mythos 会持续发现新的漏洞,并自动评估可利用性和影响范围。
第二层:负责任披露
发现的漏洞通过 Anthropic 协调的负责任披露流程,提交给原始厂商修复。这里 Anthropic 扮演的是一个"中立协调者"的角色——它本身不是漏洞收购商,也不是厂商,利益关系相对干净。
第三层:防御共享
成功修复的漏洞情报,会汇入行业共享池,供所有参与者使用。这形成了一个以攻促防的良性循环——谁发现谁受益,所有人共享防御成果。
三、Mythos 挖出了什么漏洞?
3.1 数字触目惊心
Anthropic 在内部测试中,用 Claude Mythos 对全球主流软件栈进行了全面扫描:
- 数千个高危漏洞被发现
- 覆盖所有主流操作系统、主要浏览器、关键基础软件组件
3.2 几个标志性案例
OpenBSD 存在 27 年的远程崩溃漏洞
OpenBSD 是最老牌的注重安全的 Unix 开源操作系统,社区以严谨的代码审查闻名。然而 Mythos 在扫描 OpenBSD 网络栈代码时,发现了一个存在于 1999 年的内存处理错误——这个错误可以导致远程系统崩溃。
27年。全球最严格的安全社区,漏掉了一个简单的内存处理bug。
FFmpeg 存在 16 年的隐蔽漏洞
FFmpeg 是几乎所有视频处理软件的核心依赖,从浏览器到直播平台都在用它。Mythos 发现了一个藏在编解码器模块深处的缓冲区问题——这个漏洞在 500 万次自动模糊测试后仍未被触发,但 Mythos 通过代码推理直接定位了它。
16年,无数次模糊测试,安全研究员的肉眼审查,都没找到。Mythos 找到了。
自主构建浏览器漏洞利用链
Mythos 最可怕的能力不是"找到漏洞",而是"找到漏洞后还能自己写出利用代码"。Anthropic 测试团队观察到,Mythos 能够:
- 从浏览器引擎的内存安全漏洞出发
- 构建完整的漏洞利用链(从RCE到权限提升)
- 生成可直接在 Linux 和 FreeBSD 上执行的提权脚本
整个过程不需要人工干预。
3.3 威胁建模:Anthropic 在担心什么
Anthropic 的官方表态很克制,但背后的威胁建模逻辑很清晰:
能力到达临界点 → 不久的将来会被恶意行为者获得 → 经济系统、公共安全、国家安全面临风险
Anthropic 在公告中提到了一个已经发生的事件:2026年2月,攻击者使用 Claude(不是 Mythos,是普通版 Claude)辅助攻击了墨西哥多个政府机构。
普通版 Claude 的安全能力已经可以被利用。Mythos 的能力比普通版高了几个数量级。
Anthropic 的策略是:在恶意行为者拿到同等能力之前,先在防御侧完成部署。
这就是"用最锋利的矛造最坚固的盾"的战略逻辑。
四、攻防博弈的新范式:从 MetATRON 到 Glasswing
4.1 一个有趣的对比
就在 Glasswing 官宣的同一天(实际上稍早几个小时),安全社区还在讨论另一款 AI 安全工具:MetATRON——一款开源的本地化 AI 渗透测试框架,能够让任何人用本地运行的模型执行自动化渗透测试。
这两款工具放在一起看,非常有意思:
| 维度 | MetATRON | Claude Mythos Preview |
|---|---|---|
| 定位 | 攻击工具(红队) | 防御工具(蓝队) |
| 模型 | 本地开源模型(可自托管) | Anthropic 闭源模型(受限访问) |
| 获取门槛 | GitHub 公开下载,任何人可用 | 仅限12家合作伙伴+40家额外机构 |
| 目标用户 | 安全研究人员、企业红队 | 合作机构的内部安全团队 |
| 商业模式 | 开源免费 | 不对外销售,通过联盟协作 |
MetATRON 代表了 AI 安全工具的"民主化"方向——让更多人能负担得起安全测试。
Glasswing 代表了 AI 安全工具的"精英化"方向——最强大的能力只给最核心的机构。
两条路线的本质分歧是:AI 安全能力的扩散,是福还是祸?
4.2 "防御优势窗口期"假说
Anthropic 的逻辑可以总结为一个假设:防御方有一个窗口期,可以在这个窗口期内用 AI 建立相对于攻击方的优势。
前提条件:
- 最强的 AI 安全能力目前由 Anthropic 控制
- Anthropic 选择只向防御方提供这些能力
- 恶意行为者获取同等能力需要时间
如果这个假设成立,Glasswing 是一个聪明的先发制人策略。
如果假设不成立呢?
如果开源社区很快复现出类似能力(就像 MetATRON 正在做的),那么 Glasswing 只是在争取几个月的时间窗口,对整体安全态势的影响有限。
现实可能是两者之间的某个位置:Glasswing 能争取到时间,但不会从根本上改变攻防博弈的长期格局。
五、从技术视角看 Mythos 的安全能力边界
5.1 Mythos 能做什么,不能做什么
作为一个安全研究员,我们需要对 Mythos 的能力边界有清醒的认知。
Mythos 擅长:
- 代码静态分析(推理漏洞逻辑链)
- 多步骤攻击路径规划
- 漏洞利用代码生成
- 社会工程学文字材料生成(钓鱼邮件等)
- 大规模漏洞扫描和筛选
Mythos 受限:
- 需要目标系统的代码或足够的上下文信息(黑盒扫描能力有限)
- 物理隔离网络的访问(需要信息输入)
- 需要执行权限才能完成攻击链(发现漏洞≠利用漏洞)
Mythos 的致命弱点(目前):
- 不能自主渗透物理隔离的系统
- 对抗性环境下的鲁棒性未经验证(专业红队可以设计混淆)
- 漏洞利用代码的稳定性可能不如人类专家手写的
5.2 为什么通用模型的代码能力会溢出到安全领域?
这个问题值得深入分析。
大模型的代码能力本质上是一种符号推理+模式匹配+知识综合的混合能力。当这种能力足够强时,它会自动涌现出以下安全相关能力:
- 内存模型推理:能够精确追踪程序执行过程中的内存状态变化,发现内存安全漏洞(越界读写、使用后释放等)
- 攻击路径搜索:在给定的系统权限下,能够搜索从当前位置到目标状态的攻击路径
- 上下文迁移:能够将一个领域的攻击技术迁移到另一个领域(从Web安全迁移到二进制安全)
- 漏洞利用代码合成:能够根据漏洞逻辑生成可执行的攻击代码
通用模型的代码能力越强,这些安全能力的上限就越高。
这意味着:未来所有顶级通用大模型都必须面对安全能力溢出的问题。
六、Project Glasswing 的深层战略意图
6.1 Anthropic 的位置
从商业角度看,Project Glasswing 对 Anthropic 有多重战略价值:
建立 AI 安全标准
通过 Glasswing,Anthropic 实际上在定义"负责任的 AI 安全能力使用"的标准——只有我授权的机构才能用,你用就是不受信任的。这是一种软性的生态控制。
绑定顶级客户
AWS、Apple、Google、Microsoft 这些机构不只是参与者,它们也是 Anthropic 最大的云端算力消费者。通过 Glasswing,Anthropic 与这些机构的利益深度绑定。
构建安全声誉护城河
OpenAI 的 GPT-4 被用来写恶意软件、Claude 被用来攻击墨西哥政府机构——Anthropic 需要在"安全"这个维度上建立差异化认知。Glasswing 是一个极佳的公关叙事。
6.2 合作方的动机
AWS/Google/Microsoft:对云安全有直接责任,AI 漏洞扫描能力对保护云基础设施至关重要。
Apple:macOS/iOS 的安全是苹果品牌信任的核心,需要最先进的漏洞发现能力。
Cisco/CrowdStrike/Palo Alto Networks:本身就是安全公司,用最先进的模型武装自己的安全产品,是理所当然的选择。
JPMorgan Chase:金融系统是 APT 攻击的首要目标,任何先进的安全工具都有价值。
Linux Foundation:开源生态的安全漏洞是整个行业的系统性风险,400 万美元捐赠和情报共享机制对 Linux 生态有直接价值。
NVIDIA:芯片安全是硬件信任链的根基,AI 模型在 GPU 驱动和固件中发现漏洞的能力对 NVIDIA 有战略意义。
七、AI 安全攻防的技术演进路线图
7.1 当前阶段:能力觉醒
我们现在正处于一个"能力觉醒"的阶段:
- 模型已经能自主发现漏洞,不需要人类专家引导
- 模型已经能自主生成利用代码,不需要人类编写
- 模型已经能自主规划攻击路径,可以在复杂系统内横向移动
这个阶段的核心特征是:攻防博弈的门槛在快速下降。
以前发现一个高危漏洞需要一个资深安全研究员花几周时间。现在一个初级安全工程师配上 Mythos,可能只需要几个小时。
7.2 下一个阶段:AI vs AI
下一个阶段将是 AI 安全攻防的自动化对战:
- AI 防御方:用 AI 模型持续扫描系统,自动发现漏洞,自动打补丁
- AI 攻击方:用 AI 模型自动生成免杀payload,自动搜索攻击路径,自动绕过防御
这个阶段的攻防博弈将发生在毫秒级时间尺度内,人类将完全无法介入实时决策。
7.3 长期博弈:AI 安全的囚徒困境
从地缘政治角度看,AI 安全存在一个经典的囚徒困境:
每个国家/机构都有动机率先部署 AI 攻击能力(先发优势)
但如果所有国家/机构都这样做,全球数字基础设施将处于持续的 AI 攻击威胁中
Project Glasswing 本质上是 Anthropic/美国科技行业试图打破这个囚徒困境的一次尝试——通过让防御方先拿到能力,来降低攻击方的相对优势。
但这个策略能否成功,取决于:
- 其他国家/地区是否接受这个"防御优先"的框架
- 开源社区能否快速复现同等能力
- Anthropic 能否持续保持技术领先
八、开发者视角:这对安全行业意味着什么?
8.1 安全研究员的角色转变
Mythos 这样的工具出现后,安全研究员的角色将发生深刻变化:
以前:研究员是漏洞发现的主力,需要手动分析代码、设计攻击payload
以后:研究员更多是策略制定者+结果审核者,漏洞发现和利用代码生成由 AI 完成
这意味着:
- 入门门槛降低:一个初级工程师+AI,可以完成以前需要高级工程师才能做的事
- 高级岗位更稀缺:能够理解 AI 发现的问题、设计复杂攻击场景的人才更加稀缺
- 审核和判断能力更重要:AI 生成的结果需要人来验证,判断漏洞的真实性、评估风险等级
8.2 开发团队的应对策略
对于非安全专业的开发团队,Project Glasswing 带来的信息是:
你的代码里可能已经有很多未被发现的高危漏洞。
应对建议:
- 主动扫描:使用 AI 安全工具(即使不如 Mythos 强大)定期扫描自己的代码库
- 依赖管理:检查你依赖的第三方库是否存在已知漏洞,Mythos 的发现意味着很多老旧依赖的风险可能比想象中更高
- 响应机制:建立快速响应漏洞披露的机制,Glasswing 的合作伙伴会发现很多漏洞,你需要准备好接收并快速修复
- 关注厂商通知:Linux Foundation 是 Glasswing 合作伙伴,大量开源漏洞修复会通过这个渠道通知
8.3 一个具体的防御场景
假设你是一个使用 Linux + Nginx + PostgreSQL 的 Web 应用开发团队,Glasswing 的影响链是这样的:
Anthropic 合作伙伴(用 Mythos 扫描)
↓
发现 Linux 内核某模块的零日漏洞
↓
通过负责任披露流程通知 Linux 基金会
↓
Linux 基金会协调内核团队修复
↓
通过安全公告发布修复补丁
↓
你的运维团队收到 CVE 通知,更新内核
Glasswing 加速了第一步(漏洞发现)和最后一步(通知到你)之间的速度。
以前这个过程可能需要几年(漏洞默默存在,没人发现)。
Glasswing 之后,这个过程可能只需要几周。
九、Mythos 的发布策略:一个审慎的保守主义
9.1 为什么不对公众开放?
Anthropic 明确表示:Claude Mythos Preview 不对公众开放,只向 Glasswing 合作伙伴和约 40 家额外基础设施组织开放。
这个决策背后的逻辑:
AI 安全的对称性问题
如果把 Mythos 开放给所有人,攻击方和防御方同时获得同等能力。但根据现实世界的经验,攻击方的需求更迫切、动机更强烈(利益驱动),防御方的响应往往更慢。
不开放,至少确保目前只有防御方在用。
能力上限的不确定性
Anthropic 承认自己也不完全理解 Mythos 的能力上限。在一个受限的环境中测试和观察,比完全放开更安全。
监管框架尚未建立
AI 安全工具的国际监管框架还没有成型。在框架建立之前,主动限制能力扩散是 Anthropic 认为负责任的做法。
9.2 未来的开放路径
Anthropic 给出了一个模糊但值得关注的承诺:
长期目标:让用户能够安全使用同等能力级别的模型。
具体路径是:先在 Claude Opus 的新版本上验证安全防护机制,然后在风险可控的条件下逐步开放。
这意味着,Claude Opus 的下一代版本,可能会包含一些"受限的安全增强能力"——既能帮助开发者做代码安全检查,又不会变成全自动漏洞利用机器。
十、总结:一场静悄悄的安全革命
Project Glasswing 不会出现在媒体头条,但它的影响可能比任何一次高调的安全事件都更深远。
对安全行业:AI 安全工具正式进入顶级玩家的战略布局,攻防博弈的游戏规则正在重写。
对开发者社区:你的代码里可能藏着大量未被发现的安全漏洞,AI 扫描工具正在快速补上这块短板,但最终修复还是靠人。
对整个社会:我们正在见证一个转折点——AI 第一次可以自主发现并利用全球主要系统的安全漏洞。如何管理这个能力,将决定未来十年数字世界的安全格局。
Anthropic 用 Claude Mythos 造了一把矛,然后告诉全世界:我用这把矛给你们造了一套盾。
这可能是 2026 年最重要的安全事件——不是某次漏洞被利用,而是人类第一次系统性地用 AI 来管理 AI 安全的风险。
这把矛最终会交给谁,盾能撑多久,我们拭目以待。
参考资料
- Anthropic 官方公告:Project Glasswing (2026-04-07)
- Claude Mythos Preview 技术报告 (Anthropic, 2026)
- SWE-bench Pro / SWE-bench Verified / Terminal-Bench 2.0 评测结果
- Project Glasswing 合作伙伴声明(AWS, Apple, Google, Microsoft, NVIDIA 等联合发布)
- 负责任漏洞披露流程文档(Anthropic + Linux Foundation 联合发布)