Anthropic 在发现数千个漏洞后，仍将新的 AI 模型保密。

Artificial Intelligence20 hours ago

Anthropic has withheld its most powerful AI model, Claude Mythos Preview, from public release after it discovered thousands of cybersecurity vulnerabilities across major platforms. Through Project Glasswing, the company is sharing the model exclusively with leading tech organisations and committing $100 million to help secure critical infrastructure.

此举标志着前沿人工智能技术部署方式的重大转变：Anthropic公司在检测到主流操作系统和网络浏览器中数千个此前未知的网络安全漏洞后，选择不向公众发布其最先进的人工智能模型。该公司并未将其商业化，而是悄悄地向负责全球数字基础设施安全的机构提供了访问权限。

事件回顾：玻璃翼计划和克劳德神话预览

该模型名为 Claude Mythos Preview，是 Anthropic 迄今为止功能最强大的系统。在内部测试中，Mythos 展现了卓越的安全漏洞识别能力，发现了涵盖当前所有主流操作系统和浏览器生态系统的数千个漏洞。

Anthropic公司并没有将此视为产品发布契机，而是发起了一项名为“Glasswing项目”的计划。该计划旨在将Mythos的各项功能直接提供给那些构建和维护关键软件的公司和基金会。首批合作伙伴名单堪称全球科技界的精英荟萃：亚马逊网络服务（AWS）、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks。

除了最初的一批用户之外，已有超过 40 家开发或维护关键软件基础设施的机构获得了访问权限。为了在资金上支持这项工作，Anthropic 公司承诺提供高达 1 亿美元的使用额度，以便这些合作伙伴能够针对他们自己的代码库运行 Mythos。

为什么这很重要：负责任的人工智能部署新范式

这项决定意义重大，原因有几点。首先，这是迄今为止最清晰的案例之一，表明人工智能实验室出于安全考虑，有意限制突破性模型的商业潜力。在人工智能行业经常因竞相推出产品而饱受诟病的情况下，Anthropic选择了克制——这一点值得关注。

其次，这些发现的规模令人震惊。在多个平台上发现数千个漏洞表明，Mythos 的代码分析水平远远超过了人类安全研究人员或现有自动化工具在类似时间范围内所能达到的水平。作为参考， CVE 数据库——全球追踪公开披露的网络安全漏洞的标准——通常每年新增约 25,000 至 30,000 条记录。一个人工智能模型在短时间内贡献数千条发现，就足以占到全球年度漏洞披露总量的相当大一部分。

第三，这种方法可能会重新定义漏洞研究的经济模式。如果您一直关注我们对微软开源工具包在运行时保护人工智能代理的报道，您就会知道，漏洞赏金计划和渗透测试仍然成本高昂且耗费人力。能够大规模执行这项工作的人工智能模型可以为企业节省数十亿美元的数据泄露相关成本。

背景：Anthropic 的安全至上声誉

Anthropic 由前 OpenAI 研究人员于 2021 年创立，其中包括 Dario 和 Daniela Amodei 兄妹。该公司一直将自身定位为前沿人工智能竞赛中注重安全性的替代方案，发布了详细的负责任扩展策略，并在对齐研究方面投入巨资。其 Claude 系列模型直接与OpenAI 的 GPT 系列和 Google 的 Gemini 展开竞争。

决定不对公众开放 Mythos 的访问权限，与这一理念相符。发布一个能够大规模识别零日漏洞的模型是一把双刃剑——对防御者来说价值连城，但如果被恶意攻击者利用，在补丁发布之前利用这些漏洞，则可能造成灾难性后果。

这种矛盾正是安全研究人员所说的“攻防不对称”问题的核心所在。攻击者只需找到一个可利用的漏洞，而防御者则需要找到并修复所有漏洞。如果人工智能能够使攻防天平向防御者倾斜——但前提是其能力得到严格控制——那么这种工具就需要采用受限的分发模式。

对人类学和行业的战略意义

从商业角度来看，“玻璃之翼”项目即使牺牲了短期收益，也是一项妙招。请考虑其战略优势：

与关键基础设施深度集成：通过将 Mythos 嵌入 AWS、Microsoft、Google 等公司的工作流程中，Anthropic 创造了任何营销活动都无法购买的依赖性和信任。
与监管机构建立良好关系：随着世界各国政府起草人工智能立法，展现负责任的克制态度能够赢得信誉，这在制定政策决策时至关重要。
数据反馈循环：合作伙伴组织确认并修复的每一个漏洞都会产生宝贵的训练信号，这将使未来的 Anthropic 模型更加强大。
竞争优势： OpenAI 和 Google DeepMind 都尚未发布任何规模相当的产品，这使得 Anthropic 在企业安全市场中占据了独特的地位。

摩根大通的参与尤其引人注目。金融机构面临着持续不断的网络攻击，并且受到全球最严格的监管框架约束。它们的参与表明，Mythos 的价值已超越科技领域。如果您对人工智能如何重塑金融服务感兴趣，请阅读我们关于谷歌人工智能推出 PaperOrchestra 用于自动化研究的文章。

接下来会发生什么？

仍有几个问题悬而未决。Anthropic 最终是否会公开发布 Mythos，或许是在修复了最关键的漏洞之后？该公司将如何验证合作伙伴组织是否及时采取了行动？如果对手不可避免地开发出自己的漏洞挖掘人工智能模型，而又缺乏类似的伦理保障，又会发生什么？

整个行业也将密切关注这种合作式、准慈善性质的做法是否会成为一种模式。如果投入1亿美元用于防御性网络安全能够取得显著成效——例如减少安全漏洞、加快补丁修复速度、增强互联网安全性——那么其他人工智能实验室将面临效仿的压力。

此外，各国政府是否会寻求强制推行这种负责任的信息披露框架也是一个问题。美国的网络安全和基础设施安全局（CISA）已经表示，将人工智能辅助漏洞检测纳入其更广泛的使命之中。

底线

Anthropic决定将Claude Mythos Preview保密，这是今年人工智能行业最具影响力的举措之一。该公司选择安全而非炫耀，是经过深思熟虑的一次尝试：最强大的AI模型不应总是以产品形式出现，有时它们应该成为工具，由最有能力保护其他人的人员悄悄使用。这一尝试能否成功，取决于执行情况、透明度，以及整个行业是否愿意遵循一条优先考虑集体防御而非个人利润的道路。