Mythosは27年にわたる人間のレビューを生き残った脆弱性を自律的に悪用した。セキュリティチームには新しい検知プレイブックが必要

VentureBeat / 2026/4/10

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Anthropicは、同社のClaude Mythos Previewが、自律的に重大なOpenBSDのTCPスタック脆弱性を見つけ出したと報告している。この脆弱性は、人間によるコードレビュー、ファジング、監査が27年続いたにもかかわらず残っていたもので、これまでの取り組みと比べて発見コストは大幅に低かったという。
  • 同社は、Mythosがエクスプロイト作成および脆弱性再現ベンチマークで大きな性能向上を達成したと主張している(例:Firefox 147のあるエクスプロイト作成比較で90倍)ほか、AnthropicのCyberGym CTFで完全な飽和状態(フル・サチュレーション)に到達したとされる。
  • Mythosは、主要なOSやブラウザにまたがって数千件の実世界のゼロデイ脆弱性を生成したとされており、Anthropicのレッドチームが要請した「一晩で成立する」リモートコード実行のエクスプロイト連鎖も含まれる。
  • その能力を防御に転用するため、AnthropicはProject Glasswingを立ち上げた。これは、セキュリティおよびインフラのパートナーによる連合で、利用クレジットとオープンソース助成金によって資金提供されている。彼らには、数週間にわたり自社システムに対してMythosを実行し検証することが課されている。
  • Anthropicは90日以内(2026年初旬7月)に一般向けの防御に関する調査報告書を公開する計画だが、この記事では、多くのセキュリティリーダーが「能力の発表」だけでなく、実用的な検知・対応プレイブックを求めている点を強調している。

監査人がコードを精査し、ファザーがそれに対してテストを実行し、そしてその結果、オペレーティングシステムは地上でもっともセキュリティを強固にしたプラットフォームの一つだと評価されるようになった。そんな中、27歳の「バグ」がOpenBSDのTCPスタックの中に潜んでいた。これを実行している任意のサーバーは、2つのパケットでクラッシュさせられた。そのバグを見つけるのに要したのは、1回のAnthropicの発見キャンペーンでおよそ20,000ドルだった。具体的にその欠陥をあらわにしたモデル実行は、50ドル未満だった。

AnthropicのClaude Mythos Previewがそれを見つけた。自律的に。最初のプロンプトの後、人間が発見を導くことはなかった。

能力の跳躍は漸進的ではない

Firefox 147でのエクスプロイト作成において、MythosはClaude Opus 4.6の2回に対して181回成功した。たった1世代で90倍の改善。SWE-bench Pro:77.8%対53.4%。CyberGymの脆弱性再現:83.1%対66.6%。MythosはAnthropicのCybench CTFを100%まで飽和させ、レッドチームが残された唯一の有意義な評価として、実世界でのゼロデイ発見へとシフトせざるを得なくなった。すると、Mythosはあらゆる主要なオペレーティングシステムおよびあらゆる主要ブラウザにわたって、数千ものゼロデイ脆弱性を明らかにした。その多くは1〜2十年も前のものだった。正式なセキュリティ訓練を受けていないAnthropicのエンジニアが、Mythosに「一晩で」リモートコード実行の脆弱性を見つけるよう依頼し、そして朝には完全に動作するエクスプロイトが出来上がっていた。これはAnthropicのレッドチームによる評価による。

AnthropicはProject Glasswingを組成した。これは12のパートナーから成る防御のための連合で、CrowdStrikeCiscoPalo Alto Networks、Microsoft、AWS、Apple、そしてLinux Foundationが含まれる。使用クレジットとして1億ドルと、オープンソース助成として400万ドルの支援が付いていた。さらに、重要なソフトウェア基盤を構築または保守する40以上の追加組織もアクセス権を得た。パートナー各社は、Mythosを自社のインフラに対して数週間にわたって実行している。Anthropicは「90日以内」に一般公開の調査結果レポートを提出すると約束し、2026年7月上旬に着地する予定だ。

セキュリティ担当役員には発表が届いた。だが、プレイブックは届かなかった。

「私はこの業界に27年います」と、CiscoのSVPであり最高セキュリティ・信頼責任者であるAnthony Grieco氏は、RSAC 2026でVentureBeatの独占インタビューに答えた。「速度(ヴェロシティ)のおかげで、セキュリティを変えるために私たちができることについて、これほど楽観的になったことはありません。しかも、私たちがとても速く動いているので、少しだけ恐ろしくもあります。さらに恐ろしいのは、敵対者も同じ能力を持っていることです。ですから率直に言って、私たちは同じくらい迅速に動かなければなりません。」

セキュリティ担当役員たちは今週、この話を15通りもの形で見聞きした。たとえばVentureBeatによる、AnthropicのNewton Cheng氏への独占インタビューも含まれる。Mythosの調査結果を要約した、広く共有されたX投稿の一つによれば、このモデルは暗号ライブラリを突破し、生産環境の仮想マシンモニタに侵入し、そしてセキュリティ訓練を受けていないエンジニアに対して朝までに動くエクスプロイトを手渡した。では、その報道が残した未回答の問いは何か。彼らがすでに実行している手法の中で、検知の天井(検出限界)はどこにあるのか。そして、7月までに何を変えるべきなのか。

すべての検知手法が天井にぶつかる場所を示す7つの脆弱性クラス

  1. OpenBSD TCP SACK、27年前のもの。 改造された2つのパケットで任意のサーバーがクラッシュする。SAST、ファザー、監査人はいずれも、敵対的な条件下でTCPオプションがどのように相互作用するかを意味論的に推論する必要があるロジック上の欠陥を見逃した。キャンペーン費用:約20,000ドル。Anthropicは、50ドルという1回あたりの金額は後知恵を反映していると注記している。

  2. FFmpeg H.264コーデック、16年前のもの。 Anthropicによれば、ファザーは脆弱なコードパスを500万回以上実行したが、欠陥を引き起こさなかった。Mythosはコードの意味論を推論することでそれを捕捉した。キャンペーン費用:約10,000ドル。

  3. FreeBSD NFSのリモートコード実行、CVE-2026-4747、17年前のもの。 認証なしでインターネットからルート権限を奪取できる。これはAnthropicの評価と独立した再現による。Mythosは、複数のパケットに分割された20個のガジェットから成るROPチェーンを構築した。完全に自律的。

  4. Linuxカーネルのローカル権限昇格。 Mythosは、低深刻度の脆弱性を2〜4個つなぎ合わせ、競合状態(レースコンディション)とKASLRのバイパスによって、完全なローカル権限昇格へと到達させた。CSAのRich Mogull氏が指摘したように、Mythosはリモートのカーネル悪用では失敗したが、ローカルでは成功した。今日の自動ツールチェーンでは、この種の脆弱性は対象になっていない。

  5. 主要なすべてのブラウザにまたがるゼロデイ。 数千件が特定された。中には人間とモデルの協働が必要だった。あるケースでは、Mythosが4つの脆弱性をJITヒープスプレーに連結し、レンダラーとOSサンドボックスの両方から脱出した。Firefox 147:Opus 4.6の2件に対し、181件の動作するエクスプロイト。

  6. 暗号ライブラリの脆弱性(TLSAES-GCMSSH)。 検証偽装の可能化、または暗号化された通信の復号を可能にする実装上の欠陥。これはAnthropicのレッドチームブログおよびHelp Net Securityによる。Glasswingの発表と同日に、Botanライブラリの重要な証明書バイパスが開示された。数学を実装しているコードのバグであり、数学そのものへの攻撃ではない。

  7. 仮想マシンモニタ のゲストからホストへの脱出。 本番環境のVMMにおけるゲストからホストへのメモリ破壊。クラウドのワークロード同士が互いのデータを見ないように保つ技術である。クラウドのセキュリティ設計は、ワークロード分離が成立していることを前提としている。この発見は、その前提を覆す。

Nicholas Carliniは、Anthropicのローンチ・ブリーフィングでこう述べた。「ここ数週間で見つけたバグは、生涯の残りの期間で見つけたものを合計しても超える量でした。」

VentureBeatの規範(処方)マトリクス

脆弱性クラス

なぜ現在の手法では見逃されるのか

Mythosが行うこと

セキュリティ担当役員のアクション

OSカーネルのロジック(OpenBSD 27年、Linux 2〜4連鎖)

SASTは意味論的な推論が不足している。ファザーはロジック上の欠陥を見逃す。ペネトレーションテスターはタイムボックスされる。バウンティはカーネルの範囲外にしている。

低深刻度の指摘を2〜4個連結してローカル権限昇格へ。約20,000ドルのキャンペーン。

ペネトレーションテストのRFPに、AI支援によるカーネルレビューを追加する。バウンティの範囲を拡大する。7月より前にOSベンダーからGlasswingの調査結果を要求する。連鎖可能性(チェーン性)でクラスタ化した指摘に再スコアを付ける。

メディアコーデック(FFmpeg 16年 H.264)

SASTは未検知。ファザーは経路5M回ヒットしたが、発火しなかった。

総当たり以上の意味論を推論。~$10Kのキャンペーン。

FFmpeg、libwebp、ImageMagick、libpngを在庫化。ファズのカバレッジをセキュリティの代理指標として扱うのをやめる。7月以降のGlasswingのコーデックCVEを追跡。

ネットワークスタックのRCE(FreeBSD 17年、CVE-2026-4747)

DASTはプロトコルの深さまで限定。ペネトレーションテストはNFSをスキップ。

未認証のルートまでの完全自律チェーン。20ガジェットのROPチェーン。

今すぐCVE-2026-4747をパッチ。NFS/SMB/RPCサービスを棚卸し。2026年サイクルにプロトコルファジングを追加。

複数脆弱性の連鎖(2〜4件を順次、ローカル)

ツールチェーンがない。ペネトレータは時間制限付き。CVSSスコアは単独評価。

競合状態+KASLR回避による自律的なローカル連鎖。

ペネトレーテスト手法ではAI支援の連鎖を要求。連鎖可能性スコアリングを構築。2026年のAIレッドチーム予算を確保。

ブラウザのゼロデイ(数千件、181件のFirefoxエクスプロイト)

懸賞金+継続的なファジングで数千件を見逃した。人間モデルとの連携が必要なものもあった。

Opus 4.6で90倍。4つの脆弱性をJITヒープスプレーに連結し、レンダラ脱出+OSサンドボックス回避。

重大度の高いパッチSLAを72時間に短縮。7月サイクル用のパイプラインを前倒しで用意。Glasswingのタイムラインについてベンダーに圧力をかける。

暗号ライブラリ(TLS、AES-GCM、SSH、Botan回避)

SASTは暗号ロジックに限定。ペネトレーション担当は暗号の深さを監査することが稀。形式検証は標準ではない。

実戦投入済みのライブラリで、証明書の偽造+復号の欠陥を発見。

すべての暗号ライブラリのバージョンを今すぐ監査。7月以降のGlasswingの暗号CVEを追跡。PQCへの移行を加速。

VMM / ハイパーバイザ(ゲストからホストへのメモリ破壊)

クラウドセキュリティは隔離を前提とする。ハイパーバイザを狙うペネトレテストは少ない。懸賞金もVMMの範囲を含めないことが多い。

本番VMMでのゲストからホストへのエスケープ。

ハイパーバイザ/VMMのバージョンを棚卸し。クラウド事業者からGlasswingの知見を依頼。マルチテナント隔離の前提を再評価。

攻撃者はより速い。防御側は年1回のパッチ適用。

CrowdStrike 2026 Global Threat Reportは、平均29分のeCrimeの侵害ブレイクアウト時間を記録していることを示しており、これは2024年より65%速い。さらに、AI支援型の攻撃が前年比89%増加しているという。CrowdStrikeのCTO、Elia Zaitsevは、VentureBeatとの独占インタビューで、現場の実態をはっきりと語っている。「エージェント型AIを活用する敵対者は、従来の人手のプロセス――アラートを見る、トリアージする、15〜20分調査する、行動を1時間後、1日後、1週間後に取る――を足りないものにするほどの速さで攻撃を実行できるんです」とZaitsevは述べた。数万ドル($20,000)のMythos発見キャンペーンが数時間で回ることで、国家レベルの研究努力の何か月分もの期間を置き換える。

CrowdStrikeのCEO George Kurtzは、Glasswing発表と同日に、LinkedIn 上で、同じようにタイムラインへの圧力を強調した。「AIは、企業がクラウドへ移行して以来最大のセキュリティ需要のドライバーを生み出しています」とKurtzは書いた。規制の時計は、運用の時計に上乗せされる。EUのAI Actの次の強制フェーズは2026年8月2日に施行され、自動監査証跡、あらゆる高リスクAIシステムに対するサイバーセキュリティ要件、インシデント報告義務、そして全世界売上の最大3%に相当する罰則が課される。セキュリティ責任者は、2つの波の順番を迫られる。7月のGlasswingの開示サイクル、その後に8月のコンプライアンス期限だ。

IvantiのField CISOであり、米空軍で25年のキャリアを持つ、連邦のサイバーセキュリティ機関と密接に連携しているMike Riemerは、政府から聞いていることをVentureBeatに語った。「脅威アクターはパッチをリバースエンジニアリングしており、その実行速度はAIによって大幅に強化されています」とRiemerは述べた。「彼らは72時間以内にパッチをリバースエンジニアリングできる。だから、私がパッチを出して、顧客がそのリリースから72時間以内にパッチを当てなければ、彼らは悪用の機会にさらされます。」Riemerは、その先に業界がどこに位置するのかを率直に言い切った。「防御側として私たちがいる場所から見て、彼らはあまりに前を走っています」と彼は言った。

GriecoはRSAC 2026で、その衝突のもう一方の現実も確認した。「運用チームに話すと、そして多くの顧客に聞くと、彼らは年に1回しかパッチを当てていません」とGriecoはVentureBeatに語った。「率直に言って、最善の状況でも、それは十分に速くありません。」

CSAのMogullは、防御側が長期的に優位性を持つという構造的な論点を示している。すなわち、脆弱性を1回修正すれば、すべての展開が恩恵を受ける。一方で、移行期間――攻撃者が72時間でパッチをリバースエンジニアリングし、防御側は年に1回しかパッチを当てない――では、攻勢が有利になる。

Mythosだけが、これらのバグを見つけるモデルではない。AIサイバーセキュリティのスタートアップであるAISLEの研究者は、Anthropicのショーケースにある脆弱性を検証した。それは、小規模でオープンウェイトのモデルで行われ、8/8の検出結果でFreeBSDのエクスプロイトに到達したと分かった。AISLEによれば、あるモデルはパラメータがわずか36億(3.6 billion)で、100万トークンあたりのコストは11セント。そして51億(5.1-billion)パラメータのオープンモデルでは、27年前のOpenBSDバグの中核となる分析チェーンを回復できたという。AISLEの結論は「AIサイバーセキュリティにおけるモートはモデルではなくシステムにある」。つまり、検出の天井はMythos固有の問題ではなく構造上の問題になる。安価なモデルでも同じバグが見つかる。7月のタイムラインは短くなるのであって、長くはならない。

Anthropicのレッドチームブログによれば、Mythosが特定した脆弱性のうち99%以上は、まだパッチが当たっていない。公開されるGlasswingのレポートは2026年7月上旬に届く。それは、オペレーティングシステム、ブラウザ、暗号ライブラリ、主要なインフラソフトウェアにわたって、高いボリュームのパッチサイクルを引き起こす。パッチパイプラインを拡張していないこと、バグバウンティの対象範囲を見直していないこと、そして連鎖可能性のスコアリングを構築していないこと――これらをその時点までに行っていないセキュリティ責任者は、その波を冷やかに受け止めることになる。7月は開示イベントではない。パッチの大津波だ。

取締役会に伝えるべきこと

すべてのセキュリティ責任者は取締役会に「すべてをスキャン済みです」と言う。Enkrypt AIのCSOであり、AWSで元Deputy CISOのMerritt Baerは、その表明はMythos以前のままでは適用できないとVentureBeatに語った。

「セキュリティリーダーが実際に意味していることは、こうです。『私たちのツールが見えるようにできているものについて、徹底的にスキャンしました』ということです」とBaerはVentureBeatとの独占インタビューで述べた。「それはまったく別の主張です。」

Baerは、取締役会向けに残存リスクを3つの層として言い換える提案をした。既知の既知(自社スタックが確実に検出できる脆弱性クラス)、既知の未知(存在していることは分かっているが、自社ツールが部分的にしかカバーできていないクラス。例えばステートフルなロジックの欠陥や認証境界の混乱など)、未知の未知(構成によって発生し、結果として安全なコンポーネントが危険な形で相互作用して顕在化する脆弱性)。「ここにMythosが着地しています」とBaerは言った。

Baerが推奨する取締役会レベルの説明文は次の通りだ。「個別の既知の脆弱性クラスを検出することに高い自信があります。残存リスクは、単一のポイントスキャナを回避する部門横断・複数ステップ・構成(コンポジション)に起因する欠陥に集中しています。私たちは、その検出の天井を引き上げる能力に積極的に投資しています。」

オンチェーン化のしやすさについても、ベアーは同様に率直だった。「チェーン化(chainability)は、第一級のスコアリング指標にならなければならない」と彼女は言った。「CVSSは、原子的な脆弱性を採点するために設計された。Mythosは、リスクが時間点(point-in-time)で完結するものではなく、グラフ状に広がっていることを明らかにしている。」ベアーは、セキュリティプログラムが行うべき3つの転換を示した。第一に、重大度スコアリングから、悪用可能性の経路(exploitability pathways)へ。第二に、脆弱性リストから、ID、データフロー、権限にまたがる関係をモデル化する脆弱性グラフへ。第三に、レメディエーション(是正)SLAから、経路の遮断(path disruption)へ。つまり、チェーンを断ち切るどのノードを修正するかが、最高の個別CVSSを修正することより優先される。

「Mythosは、見逃されていたバグを見つけるだけではない」とベアーは言った。「脆弱性が相互に独立しているという前提を無効化することが目的だ。カバレッジ(coverage)という発想から相互作用(interaction)という発想へと適応しないセキュリティプログラムは、赤い攻撃経路の上に座りながら、緑色のダッシュボードを出し続けるだろう。」

VentureBeatは、インタビューが完了次第、Glasswingの創業パートナーから得られた追加の運用詳細をもとに、このストーリーを更新します。