精度の先へ:9つの複雑性次元にわたってLLMの代数的推論失敗を診断する
arXiv cs.CL / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、全体の精度だけを報告する代数的推論ベンチマークでは、LLMがなぜ失敗するのかを説明できないと主張する。理由は、先行研究のテストでは、複雑性の異なる要因(例:ネスト、あまり一般的でない演算子、依存関係の長さ)が交絡していたためである。
- 人手による注釈を避ける自動問題生成と検証を用い、各要因を制御された条件下で独立に変化させる「9次元の代数的複雑性」フレームワークを導入する。
- 7種類の命令チューニング済みLLM(8B〜235Bパラメータ)に対する実験では、動作記憶(ワーキングメモリ)のボトルネックが、スケール不変な形で支配的であることが示される。すべてのモデルが、20〜30本の並列推論ブランチの範囲で崩壊する。
- さらに本研究は、文献に記録された代数的失敗モードの全空間を捉えるのに診断的に十分な、最小限の5つの複雑性次元の集合を提案する。これにより、モデル能力のコンパクトな「複雑性プロファイル」が可能になる。


