
Anthropic has withheld its most powerful AI model, Claude Mythos Preview, from public release after it discovered thousands of cybersecurity vulnerabilities across major platforms. Through Project Glasswing, the company is sharing the model exclusively with leading tech organisations and committing $100 million to help secure critical infrastructure.
最先端のAI機能の活用方法に劇的な変化をもたらす動きとして、Anthropic社は、主要なオペレーティングシステムとウェブブラウザにわたる数千ものこれまで知られていなかったサイバーセキュリティの脆弱性を検出した後、同社が開発した最も高度な人工知能モデルの一般公開を見送ることを決定した。同社は商業的にリリースする代わりに、世界のデジタルインフラのセキュリティを担う組織に静かにアクセス権を配布した。
問題のモデルは「Claude Mythos Preview」と呼ばれ、Anthropic社がこれまでに開発した中で最も高性能なシステムです。社内テストにおいて、Mythosはセキュリティ上の欠陥を特定する驚異的な能力を発揮し、現在使用されている主要なOSおよびブラウザのエコシステム全体にわたる数千もの脆弱性を発見しました。
Anthropicはこれを製品発表の機会と捉えるのではなく、「Project Glasswing」と名付けたイニシアチブを立ち上げた。このプログラムは、Mythosの機能を、重要なソフトウェアの開発と保守を行う企業や財団に直接提供するものだ。ローンチパートナーには、Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、Nvidia、Palo Alto Networksといった、世界のテクノロジー業界の錚々たる顔ぶれが名を連ねている。
当初の参加企業に加え、重要なソフトウェアインフラストラクチャを開発または保守する40以上の組織にもアクセスが拡大されました。この取り組みを財政的に支援するため、Anthropicは最大1億ドルの利用クレジットを提供し、これらのパートナー企業が自社のコードベースでMythosを実行できるようにしています。
この決定は、いくつかの理由から非常に重要な意味を持つ。まず、セキュリティ上の懸念から、AI研究所が画期的なモデルの商業的可能性を意図的に制限した、これまでで最も明確な事例の一つと言える。製品出荷を急ぐことで批判されがちな業界において、Anthropic社が抑制的な姿勢を選んだことは注目に値する。
第二に、発見された脆弱性の規模は驚異的です。複数のプラットフォームにわたって数千もの脆弱性が発見されたということは、Mythosが人間のセキュリティ研究者や既存の自動化ツールが同等の時間枠で達成できるレベルをはるかに超えるコード分析を行っていることを示唆しています。参考までに、公開されているサイバーセキュリティ脆弱性を追跡するための世界標準であるCVEデータベースには、通常、年間約25,000~30,000件の新規エントリが登録されています。単一のAIモデルが短期間に数千件もの発見をすれば、年間の世界的公開件数のかなりの割合を占めることになります。
第三に、このアプローチは脆弱性調査の経済性を再定義する可能性があります。 マイクロソフトのオープンソースツールキットが実行時にAIエージェントを保護、という記事をご覧になった方はご存知でしょうが、バグ報奨金プログラムや侵入テストは依然として高額で手間がかかります。こうした作業を大規模に実行できるAIモデルがあれば、組織は情報漏洩関連のコストを数十億ドルも節約できる可能性があります。
Anthropicは、ダリオ・アモデイとダニエラ・アモデイ兄妹を含む元OpenAI研究者によって2021年に設立されました。同社は、最先端AI競争において安全性を重視する企業として一貫して位置づけられており、責任あるスケーリングに関する詳細なポリシーを公開し、アライメント研究に多額の投資を行っています。同社のClaudeファミリーモデルは、OpenAIのGPTシリーズやGoogleのGeminiと直接競合しています。
Mythosを一般公開しないという決定は、その理念に沿ったものです。ゼロデイ脆弱性を大規模に特定できるモデルを公開することは、諸刃の剣となるでしょう。防御側にとっては非常に貴重なツールですが、パッチが適用される前に悪意のある攻撃者がアクセスした場合、同じ脆弱性を悪用する可能性があり、壊滅的な事態を招く恐れがあります。
この緊張関係こそが、セキュリティ研究者が「攻撃と防御の非対称性」問題と呼ぶものの核心にある。攻撃者は悪用可能な脆弱性を一つ見つけるだけでよい。一方、防御側は全ての脆弱性を見つけて修正する必要がある。防御側に有利なAI(ただし、その機能が慎重に制御されている場合に限る)は、まさに配布制限モデルを必要とするツールである。
ビジネスの観点から見ると、たとえ短期的な収益を犠牲にするとしても、プロジェクト・グラスウィングはまさに妙手と言えるでしょう。戦略的なメリットを考えてみてください。
JPMorganChaseの参加は特に注目に値します。金融機関は絶え間ないサイバー攻撃に直面し、世界で最も厳しい規制枠組みの下で事業を運営しています。彼らの参加は、Mythosが既にテクノロジー分野以外でも価値を実証していることを示しています。AIが金融サービスをどのように変革しているかにご興味があれば、 Google AIが自動調査のためのPaperOrchestraを発表した記事をご覧ください。
いくつかの疑問が残る。Anthropicは最終的にMythosを一般公開するのだろうか?おそらく、最も深刻な脆弱性が修正された後になるのだろうか?同社は、パートナー組織が発見された脆弱性に対してタイムリーに対応していることをどのように検証するのだろうか?そして、敵対勢力が同様の倫理的制約なしに独自の脆弱性探索AIモデルを開発した場合、どうなるのだろうか?
業界全体も、この協力的で準慈善的なアプローチが模範となるかどうかを注視しているだろう。1億ドルを投じたサイバーセキュリティ対策が、侵害件数の減少、パッチ適用の迅速化、インターネットのセキュリティ強化といった目に見える成果を上げれば、他のAI研究所も追随せざるを得なくなるだろう。
また、政府がこのような責任ある情報開示の枠組みを義務化しようとするかどうかも問題となる。米国のサイバーセキュリティ・インフラストラクチャセキュリティ庁(CISA)は、より広範な使命の一環として、AIを活用した脆弱性検出に関心を示している。
AnthropicがClaude Mythos Previewを非公開にしたことは、今年のAI業界における最も重要な動きの一つと言えるだろう。同社は、見せかけよりも安全性を優先することで、最も強力なAIモデルは必ずしも製品である必要はなく、時には他者を守る立場にある人々が静かに活用するツールであるべきだという、計算された賭けに出ている。この賭けが成功するかどうかは、実行力、透明性、そして業界全体が個人の利益よりも集団防衛を優先する道筋に従う意思があるかどうかにかかっている。