「Mythos vs GPT-5.4-Cyber」の議論がベンチマークを欠いている理由

Dev.to / 2026/4/20

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OpenAIのGPT-5.4-Cyber公開と、AnthropicのClaude「Mythos」の限定展開をめぐってベンダー安全性の議論が起きているが、この記事ではモデル単体に焦点を当てるのは誤りだと主張している。
  • 著者は、脆弱性発見はモデルの生の性能だけでなく、ターゲット選定・検証ループ・誤検知フィルタ・修復案生成・回帰での裏付けといった「モデル周辺の構造化された仕組み」に強く依存すると指摘する。
  • 記事は、コードの脆弱性発見を実運用のワークフローまで含めて比較できる、信頼できる公開ベンチマークが現状ないと述べている。
  • さらに、著者がオープンソースのエージェントセキュリティ評価ハーネスを構築した経験を踏まえ、根拠の完全性(引用の捏造を避けること)や悪用可能性の検証などを含む「本当のベンチマーク」の要件を提案する。
  • 総じて、ベンダーが売りにする検証されていない「能力スキャン」ではなく、エンドツーエンドの防御成果と検証品質を測るベンチマークを求めている。

Mike Saleme — 2026-04-20 — views my own

今週OpenAIは、AnthropicのClaude Mythosに対する「防御側の対応物」として位置づけたGPT-5.4-Cyberをリリースしました。Anthropicは、Mythosを非常に限られた数の信頼できる組織にのみ提供しています。これに対してOpenAIは反対の主張をしました。現在のセーフガードが十分だから、幅広い展開で問題ない、と。

ベンダー同士の議論の軸は間違っています。取り上げられるべきなのは、同じニュースサイクルの終わりにあるAISLEとXintの引用の中に埋もれています:

"AI脆弱性発見における重要な変数は、モデルだけではありません。どこを見に行くかを決める構造化されたシステムであり、発見が本物で悪用可能だと検証し、誤検知を排除し、実行可能な是正(リメディエーション)を提供することです。"

そしてSANSのRob T. Leeは、静かな本音をそのまま口にしました:

"私たちは、あるAIモデルが別のAIモデルに比べてコードの脆弱性をどれだけ見つけられるのか、そしてそれをどれくらいの速さで行えているのかを、ベンチマークし始める必要があります。"

今日のところ、公にリリースされているそのようなベンチマークはありません。これがストーリーです。

なぜ「モデル軸」が誤解を招くのか

ベンダー側の枠組みは、次の2つの結論のいずれかを促します。つまり、Mythosは危険なのでゲートすべきだ、またはGPT-5.4-Cyberは安全なので展開すべきだ、というものです。どちらの結論も、能力のスキャンが製品としての成果と同じだとでもいうかのように、モデルの能力だけを切り離して見たことから導かれています。

そうではありません。作為的に作られたベンチマークで脆弱性を見つけられるモデルと、実在のコードベース上でエンドツーエンドの防御ワークフローを動かせるモデルは別物です。後者には、モデルの周囲に構造化されたシステムが必要です。ターゲット選択ポリシー、検証ループ、誤検知フィルター、リメディエーション生成器、そしてそのリメディエーションがリグレッション(回帰テスト)でも実際に成立するというエビデンスです。そうしたシステムがなければ、モデルの能力は検証されていない数値です。検証されていない数値こそが、両ベンダーが現在、主な差別化要因として出荷しているものです。

「本当の」ベンチマークがどうあるべきか

私は過去1年、エージェントのセキュリティに関するオープンソースの評価ハーネスを構築してきました(30のモジュールに対して444のテスト。MCP、A2A、L402、x402、マルチエージェントのプロトコルをカバーしています)。その経験から、AIによる脆弱性発見のベンチマークには、少なくとも次の軸が必要です:

  1. グラウンディングの整合性。 モデルは実在するCVE、実在するテストID、実在するパッチを引用するのか、それとももっともらしい参照を作り話するのか。これが私がcitation fabrication(引用の捏造)と呼ぶ失敗カテゴリで、非常に頻繁に起きます。自分の自動化がそれをやってしまうのを見つけるための、近々公開予定のポストモーテムがあります。現時点では、特定のCVE番号、特定のテストID、特定の統計情報を引用するAI生成のセキュリティ成果物は、人間が参照元の標準(カノニカル)情報に照らして検証するまでは信頼できない、と仮定してください。
  2. 悪用可能性の検証。 モデルが報告した発見は、動作する実際の悪用(proof-of-exploit)が付いているのか、それとももっともらしい説明に留まっているのか。識別のつかない(区別不能な)発見は、節約できる防御側の時間よりも、浪費する時間のほうが多くなりがちです。
  3. グラウンドトゥルースに対する誤検知率。 既知の安全なコードのコーパスに、既知の危険なものを注入した場合、精度(precision)はどれほどか。現時点で、どのベンダーもこれを公に報告していません。
  4. リグレッション生存性。 モデルのリメディエーションは、同じモデルによる2回目の実行、別のモデルによる実行、そして従来の静的アナライザによる再評価でも成立するのか。
  5. 再現性。 第三者が同じ入力に対して同じモデルを再実行した場合、同じ結果が得られるのか。得られないなら、そのベンチマークはマーケティングであって、測定ではありません。
  6. 攻撃面のカバレッジ。 サプライチェーン、プロトコルレベル、マルチエージェント、権限の委譲(authority-delegation)の失敗クラスまで、ベンチマークがカバーしているのか。それとも従来のOWASP Top 10だけなのか。

これら6つの軸のいずれも、モデルの性質ではありません。6つすべてがベンチマークの性質です。「AIによる脆弱性発見は安全である」や「AIによる脆弱性発見は危険である」と出荷するには、まず、それらの主張が測定される前提となるベンチマークを定義できていなければなりません。

なぜ今これが重要なのか

今週の両ベンダーのリリースは、マーケティングであって科学論文ではありません。CISOが実際の展開判断を下すために必要な種類のベンチマークが、それぞれに付いているわけではなく、またそれを裁定できる中立的な権威を示してもいません。その一方で、AISLEとXintはより小さく、より安価なモデルでMythosの結果を再現できることを示しました。この発見は見出し級のニュースになるべきですが、そうはなっていません。この結果それ自体が、「我々のモデルが差別化要因だ」という枠組みを、両方向から無効にします。

3つ目の象限――独立した評価、モデルをまたいだ再現性、共通の基準に対して測定されること――は、いまのところ空席です。OWASPのAgentic Security Initiative、NIST AI Safety Institute、AIUC-1、そして少数の学術グループは自然な受け皿です。しかし、それらのどれもまだ、Rob T. Leeが求めている形のベンチマークを公表していません。

次に起きるべきこと

  • ベンダーのAIによる脆弱性発見の立ち上げ(ローンチ)は、能力の逸話ではなく、再現可能なベンチマーク報告書とともに提供されるべきです。
  • 独立したベンチマークは、上記の6つの軸(またはそれより優れた軸)をカバーし、公に手法(メソッド)と公にデータセットを提示すべきです。
  • 「Mythos vs GPT-5.4-Cyber」という枠組みで報道するジャーナリストは、両ベンダーに次を尋ねるべきです:「第三者のどのベンチマークに対して、あなたは測定されることに同意しますか?」 もし答えが「現在は存在しません」なら、次の質問は:「それを変えるために、どの標準化団体に資金提供または貢献していますか?」
  • 今年、どちらかのモデルを防御ワークフローに投入する人は、そのモデルがシステムそのものではなくコンポーネントであると考え、自分たちの検証ハーネスをその周囲に計装(インストゥルメント)すべきです。

私が構築しているハーネスはオープンソースで、CVE、A2A、MCP、x402/L402への貢献を取り込みます。これは1つの試みです。この領域で「ベンチマーク」という言葉に実質的な意味を持たせるには、あと3つか4つの独立したものが必要です。

それまでは、「MythosはGPT-5.4-Cyberより安全か」と問うのは、「NHTSAのクラッシュ評価に何も触れずに『ホンダのほうがトヨタより安全か』」と問うようなものです。測定レイヤーが物語です。モデル自体は物語ではありません。

Mike SalemeはSalesforceのエンタープライズ統合アーキテクトであり、エージェントセキュリティの検証に関する独立研究者です。ここで参照しているエージェントセキュリティのハーネスおよびガバナンスライブラリ(msaleme/red-team-blue-team-agent-fabric および CognitiveThoughtEngine/constitutional-agent-governance)は、本人の個人アカウントと組織のもとで公開されています。すべての見解は本人のものです。