深さの上限:潜在的な計画発見における大規模言語モデルの限界について
arXiv cs.LG / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルが複数ステップの潜在的計画戦略を発見し、途中ステップの教師信号なしに1回のフォワードパスでそれを実行できるかどうかを検証する。
- 制御されたグラフの経路探索タスクに関する実験では、スケーリングでは解決されない明確な深さの上限が示される:小型トランスフォーマーは最大3つの潜在ステップまで学習でき、微調整したGPT-4oおよびQwen3-32Bは最大5、GPT-5.4は少数ショットのプロンプトによって最大7に到達する。
- モデルは学習時に最大5の潜在的計画の深さまで獲得できる一方で、獲得した戦略はテスト時に最大8つの潜在ステップを実行することへと一般化し得る。
- これらの結果は、「最終回答の教師信号から潜在的計画戦略を発見すること」と「発見後に潜在的深さをより大きくしてそれを正常に実行すること」との間に切り離し(dissociation)があることを示唆し、連鎖的思考(chain-of-thought)モニタリングの前提に関する制約を含意する。
- 著者らは、同様の制限が一般化するなら、多段の協調的な潜在的計画には明示的な指示または外部化が必要になる可能性があるとしており、CoTモニタリングの有用性(ただし限界)を裏づけると主張している。
