ループ、思考、そして一般化:反復深度トランスフォーマーにおける暗黙的推論

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トランスフォーマーモデルにおける暗黙的推論、すなわち単一の順伝播の中で規則や知識をどのように組み合わせるのかを調査し、標準的なトランスフォーマーは暗黙的なマルチホップ合成にしばしば失敗することを示す。
  • 同一のトランスフォーマーレイヤーを反復計算のために再利用する反復深度トランスフォーマーを提案し、2つの合成的汎化設定(体系的汎化、深さ外挿)を検証する。
  • 自前で学習したモデルによる制御実験では、反復深度トランスフォーマーがバニラ・トランスフォーマーの両課題で優れることが示され、パラメトリックな知識よりも合成的汎化が改善される。
  • 著者らは、体系的汎化が3段階の「グロッキング(grokking)」プロセス(記憶から分布内での汎化、さらに体系的汎化へ移行すること)によって生じることを見出し、メカニスティックな分析によって裏付ける。
  • 深さ外挿については、推論時の反復回数を増やすことでより深いホップ数への一般化を可能にできる一方で、過剰な反復が予測を損なう「オーバーシンキング(overthinking)」という主要な失敗モードも特定する。

概要: 本研究では、暗黙の推論、すなわち知識やルールを単一の順伝播の中で組み合わせる能力を考察する。トランスフォーマー系の大規模言語モデルは、実質的な事実知識やルールを保存している一方で、暗黙のマルチホップ推論のためにそれらを合成することにしばしば失敗し、パラメトリックな知識に対する合成的汎化が欠けていることを示唆している。この制限に対処するために、同一のトランスフォーマー層を反復的に計算する反復深度トランスフォーマー(recurrent-depth transformers)を研究する。本研究では、暗黙の推論シナリオの下で、2つの合成的汎化の課題を調査する。すなわち、体系的汎化(systematic generalization)——学習中の合成において決して使われない知識を組み合わせること——と、深さ外挿(depth extrapolation)——限られた推論の深さ(例: 最大5ホップで学習)からより深い合成(例: 10ホップ)へ一般化すること——である。スクラッチから学習したモデルによる制御された研究を通じて、基礎的な(vanilla)トランスフォーマーが両方の汎化課題で苦戦するのに対し、反復深度トランスフォーマーはそのような汎化を効果的に実現できることを示す。体系的汎化については、機構的分析により裏付けられた3段階のグロッキング(grokking)プロセス、すなわち、記憶(memorization)から分布内(in-distribution)での汎化、そして最後に体系的汎化へ移行することで、この能力が生じることを見出す。深さ外挿については、推論時の反復(inference-time recurrence)をスケーリングすることで、学習深さを超えた一般化が解き放たれ、反復回数を増やすほどより深い推論が可能になることを示す。さらに、学習戦略が外挿にどのように影響するかを調べ、反復深度トランスフォーマーの学習に関する指針を提示し、重要な制限として、過剰な反復により予測が劣化し、非常に深い合成への汎化が制限される「過考慮(overthinking)」を特定する。