トランスフォーマーの位相的な問題

arXiv cs.LG / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • トランスフォーマーは拡張される文脈履歴によって構造を表現しますが、そのフィードフォワード設計では時間的な動的状態追跡を十分に行うのが難しいと指摘されています。
  • 状態追跡は本質的に逐次的な依存関係を含むため、フィードフォワードモデルは更新される情報を層のより深いところへ押し込みがちで、浅い層では情報にアクセスしづらくなって深さのボトルネックに直面します。
  • 動的深さモデルや、状態表現を明示的/潜在的に外部化する「思考」などの回避策はあるものの、計算量とメモリ効率の面で非効率になりやすいと述べられています。
  • この記事は、時間的に拡張された認知には、リカレント(再帰的)アーキテクチャによる暗黙的な活性ダイナミクスへ焦点を移すべきだと主張し、再帰が「深さ」か「時間ステップ」かで分類する分類体系を提示します。
  • さらに、状態空間モデルの改善や粗い粒度の再帰(coarse-grained recurrence)など、状態追跡を基盤モデルへうまく統合するための今後の研究方向性も挙げています。

要旨: トランスフォーマーは、拡張されていく文脈の履歴を通じて、シーケンス内に構造を符号化する。しかし、その純粋にフィードフォワード型のアーキテクチャは、本質的に動的な状態の追跡を制限してしまう。状態追跡――変化していく環境を反映する潜在変数を反復的に更新すること――には、本質的に逐次的な依存関係が関わるため、フィードフォワードネットワークでは維持するのが難しい。その結果、フィードフォワードモデルは、入力ステップが進むたびに、変化する状態表現をより深い層スタックへと押し込んでしまい、浅い層では情報が参照不能となり、最終的にモデルの深さが尽きてしまう。この深さの制限は、動的深さモデルや、状態表現を外在化する明示的または潜在的な思考によって回避できるものの、これらの解決策は計算的・メモリ効率の面で不利である。本稿では、時間的に拡張された認知には、明示的な思考痕跡から、反復的アーキテクチャによる暗黙の活性ダイナミクスへと焦点を移す必要があると主張する。我々は、再帰的および連続的な思考を行うトランスフォーマー・アーキテクチャの分類法を提示し、それらを、再帰の軸(深さ対ステップ)と、入力トークン数と再帰ステップ数の比によって分類する。最後に、よりよく状態追跡を現代の基盤モデルに統合するための、有望な研究方向として、強化された状態空間モデルや粗視化された再帰などを概説する。