明示的な妥当性制約を伴う有限の離散状態空間問題における大規模言語モデルの複雑性誘発的な限界に関する経験的証拠

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑性パラメータ化された9つの離散的で有限な状態空間問題に対して、大規模言語/推論モデルを評価するための制御されたベンチマーク枠組みを提案する。
  • 決定論的なバリデータと明示的な妥当性制約を用い、完全に妥当な解のみをカウントすることで、難易度が上がるにつれて推論の頑健性を正確に測定できるようにする。
  • オープン系およびプロプライエタリな各種モデルにわたる結果から、相転移のような「推論の崩壊」が示される。すなわち、低い複雑性では精度が高いまま保たれるが、課題固有の複雑性閾値を超えると急激に低下する。
  • 劣化は、通常、不整合な推論トレース、制約違反、状態追跡の喪失、過信した誤答出力を伴い、また、より長い推論チェーンは正確性の改善につながるとは限らない。
  • 著者らは、これらの結果が静的な集計ベンチマークの限界を明らかにするものであり、複雑性を段階的に増やしながら推論を明示的に試験する評価手法を促すと主張している。

要旨: 大規模言語モデル(LLM)は、数学・論理・計画のベンチマークにおける高い性能によって裏付けられ、強い推論能力を備えているとますます広く説明されるようになっています。しかし、既存の評価の多くは固定されたデータセットに対する集約的な正確さに依存しており、タスクの複雑さが増していくにつれて推論の振る舞いがどのように変化するのかを見えにくくしています。本研究では、問題の複雑さを段階的に高めていく中で、大規模推論モデル(LRM)における推論の頑健性を体系的に評価するための、制御されたベンチマーク枠組みを導入します。私たちは、古典的な推論タスク9種類のセットを構築します。すなわち、充足可能性(Boolean Satisfiability)、暗号算術(Cryptarithmetic)、グラフ彩色(Graph Coloring)、川渡り(River Crossing)、ハノイの塔(Tower of Hanoi)、水差し(Water Jug)、チェッカージャンプ(Checker Jumping)、数独(Sudoku)、ルービックキューブ(Rubik's Cube)です。これらはそれぞれ、基礎となる意味論を保持しつつ、複雑さを正確に制御できるようパラメータ化されています。決定論的なバリデータを用いて、低・中・高の複雑さ領域にわたる複数の公開および商用のLRMを評価し、完全に有効な解のみが受理されるようにします。結果として、モデルには一貫した相転移のような振る舞いが見られます。すなわち、低い複雑さでは高い精度を達成しますが、タスク固有の複雑さ閾値を超えると急激に性能が低下します。この現象を私たちは「推論崩壊(reasoning collapse)」として形式化します。タスク全体で、しばしば50%を超える大幅な精度低下を観測しており、それに加えて、推論の痕跡が一貫しないこと、制約違反、状態追跡の喪失、そして自信に満ちた誤った出力が伴います。推論の長さを増やしても、正しさの改善につながるとは限りません。また、ある問題ファミリで得た向上が他の領域へ一般化することもありません。これらの知見は、静的なベンチマークを超える評価手法の必要性、そして制御された複雑さの下で推論の頑健性を明示的に測定する必要性を示しています。