Transformersはミラーデセントによって文脈内で潜在混合モデルを学習する

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、トランスフォーマーの注意機構が担う「過去トークンの因果的な重要度推定」を、Mixture of Transition Distributionsに基づく“文脈内学習”として定式化する枠組みを提案している。
  • 潜在変数(各過去トークンが次に与える影響)に対応する混合ウェイトを、観測されない混合重みとしてトランスフォーマーが文脈から学習するモデル化を行っている。
  • 3層トランスフォーマーの明示的な構成により、これがMirror Descentの1ステップを“厳密に”実装できることを示し、得られる推定器がBayes最適予測器の一次近似になることを理論的に証明している。
  • 学習可能性について、勾配降下で理論と整合する解が得られることを実験的に裏付け、予測分布・注意パターン・推定された遷移行列が構成と近いこと、さらに深いモデルでは多ステップMirror Descentに近い性能が出ることを報告している。

概要: シーケンスモデリングでは、文脈とそれらの重要性から、過去のどのトークンが因果的に関連しているかを決定する必要があります。これはトランスフォーマの注意(attention)層に内在するプロセスですが、その根底にある学習された仕組みは、いまだ十分に理解されていません。本研究では、Mixture of Transition Distributions(遷移分布の混合)に基づく枠組みを導入することで、トークンの重要性を推定する課題を、インコンテキスト学習(in-context learning)問題として形式化します。この枠組みにおいて、潜在変数が、次に対して過去のトークンが与える影響を決定します。この潜在変数に対する分布は、観測されない混合重み(mixture weights)によってパラメータ化されます。これらの混合重みは、トランスフォーマがインコンテキスト内で学習しなければなりません。本研究では、トランスフォーマが文脈からこれらの重みを学習するために Mirror Descent(ミラー降下法)を実装できることを示します。具体的には、Mirror Descent の1ステップを正確に実装する3層のトランスフォーマに関する明示的な構成を与え、得られる推定量がベイズ最適予測器の一階近似になっていることを証明します。この構成と勾配降下(gradient descent)によるその学習可能性を裏付けるとともに、実験的に、スクラッチから学習されたトランスフォーマが我々の理論と整合する解を学習することを示します。すなわち、予測分布、注意パターン、そして学習された遷移行列は、構成と非常に良く一致し、より深いモデルでは、複数ステップの Mirror Descent と同等の性能が得られます。