堅牢な推論ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「堅牢な推論ベンチマーク」を提案し、LLMの推論が、標準的な数学テキストの書式を14の技術（テクニック）からなるパイプラインで擾乱したときにどの程度耐えられるかを検証する。
AIME 2024データセットでの実験では、最先端の8モデルを評価し、フロンティアモデルは比較的堅牢である一方、オープンウェイトの推論モデルは精度が壊滅的に低下することが分かった（平均で最大約55%、一部の擾乱では100%）。
解析・機械的な失敗と、真の推論失敗を切り分けるため、研究では1つのコンテキストウィンドウ内で複数の非擾乱問題を連続して解くことで作業メモリを制御し、その結果として、オープンウェイトモデル（7B〜120B）とClaude Opus 4.6の双方で精度低下（デケイ）を観察する。
著者らは、推論の途中ステップが高密度な注意（dense attention）メカニズムを「恒久的に汚染」し得ると結論づけ、Chain-of-Thoughtにおいて明示的な文脈リセットを含む新しい推論アーキテクチャを動機づける。
信頼でき、堅牢な推論システムを実現するために、原子的な推論タスクの最適な粒度（グラニュラリティ）についての未解決の研究課題を提起している。

要旨: 大規模言語モデル（LLM）は標準的な数学ベンチマークで高い性能を示しますが、その基盤となる推論プロセスは標準的なテキスト形式への過適合が非常に強いままです。本研究では、LLMの推論の頑健性を評価するための14の手法から成る摂動（パーターベーション）パイプラインを提案します。このパイプラインをAIME 2024のデータセットに適用し、その結果得られたベンチマークで最先端の8つのモデルを評価します。最前線のモデルは耐性を示す一方で、オープン重みの推論モデルは壊滅的な崩壊（摂動ごとの平均精度低下が最大55%、一部では最大100%）に苦しみ、構造的な脆弱性が明らかになります。機械的なパース（解釈）の失敗と、下流の推論失敗をさらに切り分けるために、モデルの作業メモリ容量を厳密に分離します。具体的には、単一のコンテキストウィンドウ内で、複数の摂動なしの数学問題を連続して解かせることで、モデルの作業メモリ容量を強制的に評価します。結果は、7Bから120Bのパラメータを持つオープン重みモデルとClaude Opus 4.6のいずれもが、その後の問題で精度が低下することを示しています。この劣化は、中間の推論ステップが標準的な密な注意（dense attention）機構を恒久的に汚染することを示しています。信頼できる推論を実現するには、将来の推論アーキテクチャは、モデル自身のChain-of-Thoughtの中に明示的なコンテキストリセットを統合する必要があると主張します。これにより、原子的な推論タスクの最適な粒度に関する根本的な未解決の問いが生じます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/13Dailyインサイトを見る →

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

ソフトバンクがAI搭載スマホ「Natural AI Phone」を独占販売

日経XTECH

フィジカルAIの次、「プロテインAI」

日経XTECH

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

GIGAZINE

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

Innovatopia

堅牢な推論ベンチマーク

要点

💡 この記事が使われたインサイト

関連記事

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

ソフトバンクがAI搭載スマホ「Natural AI Phone」を独占販売

フィジカルAIの次、「プロテインAI」

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer