フロンティアモデルは本番投入の3回に1回は失敗しており、監査がさらに難しくなっている

VentureBeat / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

スタンフォードHAIの『2026 AI Index』によると、フロンティアモデルやAIエージェントは依然として本番投入の約3回に1回の割合で失敗しており、能力（Capability）と信頼性（Reliability）のギャップが継続していることが示されている。
報告書では、これを「ジャギー（ギザギザ）のフロンティア」と表現している。つまり、システムがベンチマークでは優れた成果を達成していても、実際の運用環境では予測できない失敗を起こしうる。
信頼性の課題がある一方で、同インデックスは2025年から2026年初頭にかけて複数のベンチマークで大きな向上があったと指摘している。例として、エージェントのタスキング能力（WebArena、τ-bench）、ソフトウェアのバグ解消（SWE-bench Verified）、MLエンジニアリング能力（MLE-bench）の主要な改善が挙げられる。
精度面でも、一般アシスタントの評価（GAIA）や、幅広い推論・知識テスト（HLE、MMLU-Pro）で向上が報告されており、推論面とツールを使うエージェントの性能の双方で急速な進歩が示唆される。
サイバーセキュリティは特に進展が速い領域であり、フロンティアモデルはCybenchで93%を達成しているのに対し、2024年は15%だった。一方で、「監査がより難しい」ことに関わる信頼性の懸念は、ITリーダーにとって依然として中核的な論点である。
企業にとっての全体的な教訓は、ベンチマークが改善していっても、監査・テスト・運用上のガバナンスは、エージェントの挙動のばらつきや、ツールによって引き起こされる失敗モードに対処できるようにしなければならない、という点にある。

AIエージェントは、現在では実際の企業の業務フローに組み込まれつつありますが、それでも構造化されたベンチマークでは、およそ3回に1回の割合で失敗しています。スタンフォード大学HAIの第9回年次「AI Index」レポートによれば、この能力と信頼性のギャップこそが、2026年にITリーダーが直面する決定的な運用上の課題です。

このようにパフォーマンスが一様ではなく予測不能であることが、AI Indexでは「ジャギッド・フロンティア（ギザギザの最先端ライン）」と呼ばれるものです。これはAI研究者イーサン・モリックが提唱した用語で、AIが得意になったかと思うと突然失敗する、その境界を表すために使われています。

「AIモデルは国際数学オリンピックで金メダルを獲得できることがある」とスタンフォード大学HAIの研究者たちは指摘していますが、「それでも時間を正確に言い当てることは信頼できないのです。」

2025年にモデルはどう進歩したか

エンタープライズにおけるAI導入は88%に到達しました。2025年および2026年初頭における注目すべき成果は次のとおりです：

最前線モデルは、1年足らずでHumanity's Last Exam（HLE）のスコアを30%向上させました。HLEには、数学、自然科学、古代言語、その他の専門的なサブ分野にまたがる2,500問が含まれています。HLEはAIにとって難しく、人間の専門家にとって有利になるように作られました。
主要モデルはMMLU-Proで87%超のスコアを達成しました。これは、12,000問の人手でレビューされた問題にもとづく多段推論をテストします。対象は、12を超える複数の分野にわたります。スタンフォード大学HAIの研究者たちは、これが「幅広い知識タスクにおいて、フロンティアがどれほど競争的になってきたか」を示していると述べています。
Claude Opus 4.5、GPT-5.2、Qwen3.5などの上位モデルは、τ-benchで62.9%から70.2%の範囲のスコアを記録しました。このベンチマークは、ユーザーとチャットすることや、外部ツールまたはAPIを呼び出すことを含む、現実世界のタスクを、現実的な領域でエージェントに評価します。
一般的なAIアシスタントをベンチマークするGAIAにおけるモデルの正確さは、約20%から74.5%へと上昇しました。
SWE-bench Verifiedにおけるエージェントのパフォーマンスは、わずか1年で60%から100%近くまで伸びました。このベンチマークは、現実世界のソフトウェア課題を解決するモデルの能力を評価します。
WebArenaでの成功率は、2023年の15%から2026年初頭には74.3%へと増加しました。このベンチマークは、自律的なAIエージェントを評価するための現実的なWeb環境を提示し、情報検索、サイトのナビゲーション、コンテンツの設定を担当させます。
MLE-benchでは、機械学習（ML）エンジニアリングの能力を評価しますが、エージェントのパフォーマンスは2024年の17%から2026年初頭にはおよそ65%へと進みました。

AIエージェントはサイバーセキュリティにおいても能力の向上を示しています。たとえば、フロンティアモデルは、暗号、Webセキュリティ、リバースエンジニアリング、フォレンジック、エクスプロイトといった6つのキャプチャー・ザ・フラッグカテゴリにまたがる、40のプロレベルのタスクを含むベンチマークであるCybenchの問題の93%を解決しました。

これは2024年の15%と比較され、「改善率として最も急峻」であり、サイバーセキュリティのタスクが「現在のエージェントの能力にとって適合の良い領域」であることを示しています。

また、動画生成も過去1年で大きく進化しました。モデルは、物体がどのように振る舞うかを捉えられるようになっています。たとえば、Google DeepMindのVeo 3は、18,000本超の生成動画にわたってテストされ、浮力のシミュレーションが可能であり、それらのタスクで訓練されていなくても迷路を解けることを示しました。

「動画生成モデルは、見た目が現実的なコンテンツを作るだけの存在ではなくなっています」と研究者らは書いています。「中には、物理世界が実際にどのように機能しているかを学び始めているものもあります。」

全体として、AIは企業内のさまざまな領域で活用が進んでおり、ナレッジマネジメント、ソフトウェアエンジニアリングおよびIT、マーケティングとセールスに加え、税務、住宅ローンの処理、企業財務、法的推論といった専門領域へも拡大しています。これらの領域では、正確さは60〜90%の範囲にあります。

「AI能力は頭打ちしていません」とスタンフォード大学HAIは述べています。「加速しており、これまでになく多くの人々に届いています。」

AI能力は急増するが、信頼性は追いつかない

マルチモーダルモデルは現在、博士課程レベルの科学の問い、マルチモーダルな推論、競技数学において、人間のベースラインに到達、あるいはそれを上回っています。たとえばGemini Deep Thinkは、2025年の国際数学オリンピック（IMO）で金メダルを獲得し、4.5時間の制限時間内に自然言語で6問中5問をエンドツーエンドで解きました——2024年に銀レベルのスコアだったことからの顕著な改善です。

しかし、それらの同じAIシステムは、スタンフォード大学HAIによれば、それでもおよそ3回に1回の割合で失敗し、基本的な知覚タスクでも苦戦します。ClockBench（180種類の時計デザインと720問を扱うテスト）では、Gemini Deep Thinkの正確さは50.1%にとどまり、人間の約90%と比べて大きく劣りました。GPT-4.5 Highも、ほぼ同一のスコアである50.6%でした。

「多くのマルチモーダルモデルは、ほとんどの人間にとっては日常的である何かにまだ苦しんでいます。それは『時間を言い当てること』です」と、スタンフォード大学HAIのレポートは指摘しています。この一見単純な課題は、視覚的な知覚と単純な演算、時計の針の識別とその位置の把握、そしてそれらを時間の値へ変換することを組み合わせたものです。最終的に、これらの各ステップのどこかで起きた誤りが連鎖し、誤った結果につながり得る、と研究者らは述べています。

分析では、モデルが扱える時計のスタイルには幅があることが示されました。標準的なアナログ時計、秒針のない時計、矢印のような針を持つ時計、黒い文字盤やローマ数字を用いるものなどです。しかし、5,000枚の合成画像で微調整した後でも、モデルの改善は見慣れた形式に限られ、歪んだ文字盤や細い針のような現実世界の変化に一般化できませんでした。

研究者は推論として、もしモデルが「時の針」と「分の針」を混同した場合、方向を解釈する能力が低下するため、課題はデータだけではなく、複数の視覚的手がかりを統合することにあるのではないか、と考えました。

「知識集約型のタスクにおいて人間の専門家とのギャップを埋めていく一方で、この種の視覚推論は依然として継続的な課題です」とスタンフォード大学HAIは述べています。

幻覚と多段推論は依然として主要なギャップ

モデルが推論を加速させ続けているにもかかわらず、幻覚は依然として大きな懸念です。

たとえばあるベンチマークでは、26の主要モデルにおける幻覚率は22%から94%の範囲に分布していました。精査すると、一部のモデルの正確さは急激に低下しました。たとえばGPT-4oの正確さは98.2%から64.4%へ下がり、DeepSeek R1は90%以上から14.4%へと急落しました。

一方で、Grok 4.20 Beta、Claude 4.5 Haiku、MiMo-V2-Proは、最も低い幻覚率を示しました。

さらに、モデルはより多くの作業を任されるようになっても、多段のワークフローに引き続き苦戦しています。たとえばτ-benchベンチマーク（ツールの使用と多ターン推論を評価）では、どのモデルも71%を超えず、「ツールを正しく使い、ポリシー上の制約にも従いながら、多ターンの会話を管理することは、最前線モデルにとってですら依然として難しい」ことを、スタンフォード大学HAIのレポートは示唆しています。

モデルが不透明になっている

主要モデルは、パフォーマンスの面で見ると互いに「ほとんど見分けがつかない」状態になっている、とスタンフォード大学HAIのレポートは指摘しています。オープンウェイトのモデルはこれまでになく競争力を増していますが、収れん（収束）しつつあります。

能力がもはや「明確な差別化要因」ではなくなっているため、競争圧力はコスト、信頼性、そして現実世界での有用性へと移っています。

フロンティアのラボはモデルに関する公開情報を減らしており、評価手法の有効性は急速に薄れ、独立したテストでは開発者が報告する指標を常に裏付けられません。

スタンフォード大学HAIが述べているように、「最も能力の高いシステムほど、最も透明性が低い」のです。

学習コード、パラメータ数、データセットのサイズ、学習期間は、しばしばOpenAI、Anthropic、Googleといった企業によって非公開にされています。そして透明性はより広範に低下しています。2025年には、対応する学習コードなしで95モデル中80モデルがリリースされ、コードを完全にオープンソースにしたのは4つだけでした。

さらに、2023年から2024年にかけて上昇したFoundation Model Transparency Index（主要な基盤モデル開発者を100の透明性指標でランキングするもの）のスコアは、その後低下しています。平均スコアは現在40で、17ポイントの減少を意味します。

報告書によれば、「訓練データ、計算リソース、デプロイ後の影響に関する開示には大きなギャップが依然として残っています」。

AIのベンチマークはより難しくなり、信頼性も下がっている

AIの進歩を測るために使われてきたベンチマークは、信頼性の問題が増大しており、広く使われている評価では誤り率が最大42%にまで達しています。スタンフォードの報告書は、「AIは、推論、安全性、そして現実世界でのタスク実行にわたって、より野心的に試験されている」と指摘する一方で、「それらの測定は、ますます依拠しにくくなっている」としています。

主な課題は次のとおりです:

開発者によるバイアスに関する「情報量が少なく、かつ減少している」報告
ベンチマーク汚染（モデルがテストデータにさらされること）。これにより「不当に高く」見えるスコアにつながり得る
開発者が報告した結果と、独立した検証との間の相違
文書化がなく、統計的有意性や再現可能なスクリプトに関する詳細も欠いた「構築が不十分」な評価
モデル間の比較を信頼できなくする「増していく不透明さ」と非標準的なプロンプト

報告書によれば、「ベンチマークのスコアが技術的に妥当であっても、高いベンチマーク性能が常に現実世界での有用性に結びつくとは限りません」。さらに、「それを測るために設計されたベンチマークを、AIの能力が追い越しています」。

その結果、「ベンチマークの飽和」が起きています。つまり、モデルが非常に高いスコアを達成しすぎて、テストではモデル同士をもはや区別できなくなる状態です。より複雑で、インタラクティブな形の知性は、ベンチマーク化がますます難しくなっています。人間とAIの協働を測る評価を求める声もありますが、AI単独の性能を測るのではなく、この手法は開発途上です。

スタンフォードHAIによれば、「何年にもわたって難易度を保つはずだった評価が、数か月で飽和し、ベンチマークが進捗追跡に役立つ期間が圧縮されてしまっています」。

私たちは「ピークデータ」に到達したのか？

構築者が、よりデータ集約型の推論へと進むにつれて、データのボトルネックやスケーリングの持続可能性に関する懸念が高まっています。主要な研究者たちは、質の高い人間のテキストとWebデータの利用可能なプールが「使い尽くされた」—いわゆる「ピークデータ」—という状態だと警告しています。

実データと合成データを組み合わせたハイブリッド手法は、「学習を大幅に加速」できることがあり（5〜10倍の場合もあります）、合成データのみで学習した小型モデルは、分類やコード生成のような特定のタスクにおいて有望な結果を示していると、スタンフォードHAIは述べています。

報告書によれば、合成的に生成されたデータは、微調整、アラインメント、指示チューニング、強化学習（RL）などのポストトレーニングの場面で、モデル性能の向上に有効になり得ます。しかし、「これらの向上が、大規模で汎用的な言語モデルへと一般化したわけではありません」。

研究者たちは、「データを無差別にスケールする」のではなく、プルーニング（削除）、キュレーション（選別）、入力の洗練へと目を向け、ラベルのクリーニング、サンプルの重複排除、そして全体として質の高いデータセットの構築によって性能を改善しています。

「データの利用可能性に関する議論は、近年のAI研究における重要な変化を見落としていることが多い」と報告書は述べています。「性能向上は、ますます『より多く獲得すること』ではなく、『既存データセットの質を高めること』によってもたらされるようになっています」。

責任あるAIが遅れをとっている

責任あるAIのためのインフラは成長している一方で、スタンフォードHAIによれば、進展は「不均一」であり、急速な能力向上のペースに追いつけていません。

ほぼすべての主要な最前線のAIモデル開発者が能力ベンチマークでの結果を報告しているのとは対照的に、安全性や責任に関する対応する報告は一貫しておらず、「断片的」です。

文書化されたAIインシデントは前年から大幅に増加しました。2025年は362件で、2024年の233件から増えています。そして、複数の最前線モデルが標準的な使用で「非常に良い」または「良い」の安全性評価を受けた一方で（AILuminateベンチマーク、つまり生成AIを12の「ハザード」カテゴリで評価するものによる）、敵対的プロンプトを用いたジェイルブレイクの試みに対して検証すると、すべてのモデルで安全性のパフォーマンスが低下しました。

「AIモデルは通常条件下では安全性テストで良好な性能を示しますが、防御は意図的な攻撃によって弱まります」と、スタンフォードHAIは指摘しています。

この課題に加え、構築者たちが、たとえば安全性のようなある側面を改善すると、精度のような別の側面が劣化する可能性があると報告しています。「責任あるAIのインフラは拡大しているが、進展は不均一であり、AIのデプロイの速さに追いついていない」と、スタンフォードの研究者たちは述べています。

スタンフォードのデータが示すことはひとつです。2026年に本当に問題になるのは、「AIと人間の性能のギャップ」ではありません。問題なのは、デモでAIができることと、生産環境で確実にできることの間のギャップです。いまは—役に立つ前に飽和してしまう研究室やベンチマークからの透明性が低いこともあって—そのギャップは、これまで以上に測りにくくなっています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

フロンティアモデルは本番投入の3回に1回は失敗しており、監査がさらに難しくなっている

要点

2025年にモデルはどう進歩したか

AI能力は急増するが、信頼性は追いつかない

幻覚と多段推論は依然として主要なギャップ

モデルが不透明になっている

AIのベンチマークはより難しくなり、信頼性も下がっている

私たちは「ピークデータ」に到達したのか？

責任あるAIが遅れをとっている

💡 この記事が使われたインサイト