精度の先へ:9つの複雑性次元にわたってLLMの代数的推論失敗を診断する

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、全体の精度だけを報告する代数的推論ベンチマークでは、LLMがなぜ失敗するのかを説明できないと主張する。理由は、先行研究のテストでは、複雑性の異なる要因(例:ネスト、あまり一般的でない演算子、依存関係の長さ)が交絡していたためである。
  • 人手による注釈を避ける自動問題生成と検証を用い、各要因を制御された条件下で独立に変化させる「9次元の代数的複雑性」フレームワークを導入する。
  • 7種類の命令チューニング済みLLM(8B〜235Bパラメータ)に対する実験では、動作記憶(ワーキングメモリ)のボトルネックが、スケール不変な形で支配的であることが示される。すべてのモデルが、20〜30本の並列推論ブランチの範囲で崩壊する。
  • さらに本研究は、文献に記録された代数的失敗モードの全空間を捉えるのに診断的に十分な、最小限の5つの複雑性次元の集合を提案する。これにより、モデル能力のコンパクトな「複雑性プロファイル」が可能になる。

Abstract

整数論理演算の推論は、大規模言語モデルにとって最も情報量の多いストレステストの1つであり続けています。しかし、現行のベンチマークには、失敗を特定の原因に帰するための仕組みがありません。モデルが代数問題に失敗した場合、単一の精度スコアでは、式が深くネストしすぎていたのか、演算子があまりにも一般的でなかったのか、中間状態の数が多すぎたのか、あるいは依存関係の連鎖が長すぎたのかを判別できません。先行研究では、個別の失敗モードを単独で扱ってきましたが、厳密な実験的制御のもとで、各複雑性要因を独立に変化させる枠組みはありませんでした。複雑性が増していく問題の自動生成と検証を行い、その進捗を時系列で追跡するシステムは、これまで誰も提示していません。私たちは、9次元の代数複雑性フレームワークを導入します。このフレームワークでは、各要因を独立に変化させつつ、他の要因はすべて固定します。問題生成と検証は、人的な注釈を不要とするパラメトリックなパイプラインによって処理されます。各次元は、記録されたLLMの失敗モードに基づいており、式のネスト深さ、同時の中間結果数、部分式の複雑性、演算子の難しさ、依存的推論チェーンの長さなど、代数的な困難さの構造的に異なる側面を捉えます。私たちは、9つの次元すべてにわたって、8Bから235Bのパラメータ数を持つ7つのinstruction-tunedモデルを評価し、その結果、作業記憶が支配的な、スケール不変のボトルネックであることを見出しました。すべてのモデルが、パラメータ数に関係なく20〜30本の並列ブランチの間で崩壊することがわかり、解ける余地のある能力の制限ではなく、手強いアーキテクチャ上の制約を示唆しています。さらに分析により、記録された代数的失敗モード全体の空間をまとめてカバーする、最小かつ診断に十分な5つの次元の部分集合を特定します。これにより、モデルの代数的推論能力に関する完全な複雑性プロファイルが得られます。