堅牢な推論ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「堅牢な推論ベンチマーク」を提案し、LLMの推論が、標準的な数学テキストの書式を14の技術(テクニック)からなるパイプラインで擾乱したときにどの程度耐えられるかを検証する。
  • AIME 2024データセットでの実験では、最先端の8モデルを評価し、フロンティアモデルは比較的堅牢である一方、オープンウェイトの推論モデルは精度が壊滅的に低下することが分かった(平均で最大約55%、一部の擾乱では100%)。
  • 解析・機械的な失敗と、真の推論失敗を切り分けるため、研究では1つのコンテキストウィンドウ内で複数の非擾乱問題を連続して解くことで作業メモリを制御し、その結果として、オープンウェイトモデル(7B〜120B)とClaude Opus 4.6の双方で精度低下(デケイ)を観察する。
  • 著者らは、推論の途中ステップが高密度な注意(dense attention)メカニズムを「恒久的に汚染」し得ると結論づけ、Chain-of-Thoughtにおいて明示的な文脈リセットを含む新しい推論アーキテクチャを動機づける。
  • 信頼でき、堅牢な推論システムを実現するために、原子的な推論タスクの最適な粒度(グラニュラリティ)についての未解決の研究課題を提起している。

要旨: 大規模言語モデル(LLM)は標準的な数学ベンチマークで高い性能を示しますが、その基盤となる推論プロセスは標準的なテキスト形式への過適合が非常に強いままです。本研究では、LLMの推論の頑健性を評価するための14の手法から成る摂動(パーターベーション)パイプラインを提案します。このパイプラインをAIME 2024のデータセットに適用し、その結果得られたベンチマークで最先端の8つのモデルを評価します。最前線のモデルは耐性を示す一方で、オープン重みの推論モデルは壊滅的な崩壊(摂動ごとの平均精度低下が最大55%、一部では最大100%)に苦しみ、構造的な脆弱性が明らかになります。機械的なパース(解釈)の失敗と、下流の推論失敗をさらに切り分けるために、モデルの作業メモリ容量を厳密に分離します。具体的には、単一のコンテキストウィンドウ内で、複数の摂動なしの数学問題を連続して解かせることで、モデルの作業メモリ容量を強制的に評価します。結果は、7Bから120Bのパラメータを持つオープン重みモデルとClaude Opus 4.6のいずれもが、その後の問題で精度が低下することを示しています。この劣化は、中間の推論ステップが標準的な密な注意(dense attention)機構を恒久的に汚染することを示しています。信頼できる推論を実現するには、将来の推論アーキテクチャは、モデル自身のChain-of-Thoughtの中に明示的なコンテキストリセットを統合する必要があると主張します。これにより、原子的な推論タスクの最適な粒度に関する根本的な未解決の問いが生じます。