トランスフォーマーにおけるインコンテキスト学習の背後にある異なるメカニズム

arXiv cs.LG / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、有限の離散マルコフ連鎖システム集合で学習したトランスフォーマーにおけるインコンテキスト学習を、機構的に特徴づける。
  • モデルが記憶するのか一般化するのか、また入力からの1点統計か2点統計かに依存するのかに応じて、4つのアルゴリズム的フェーズを特定する。
  • 著者らは、これらのフェーズが、文脈に適応した計算を体現する2種類の質的に異なるモチーフを備えた多層サブ回路によって実装されると主張する。
  • サブ回路間の競合に基づく境界K1*(動力学的競争に由来)と、表現上のボトルネックに基づく境界K2*(表現ボトルネックに由来)の2つのデータ多様性依存の境界が、記憶/一般化のレジームを分ける。
  • 学習ダイナミクスの対称性制約に基づく理論を用いて、1点から2点の一般化への鋭い移行と、一般化を可能にする損失地形の性質を説明する。

ast)はサブサーキット間の動力学的競合によって定まり、2つ目の境界(K_2^\
ast$)は表現上のボトルネックによって定まる。トランスフォーマーの学習ダイナミクスに対する対称性に制約を課した理論は、1点から2点の一般化へと至る鋭い転移を説明し、さらにネットワークが一般化できるようにする損失地形(ロス地形)の重要な特徴を特定する。以上を合わせると、トランスフォーマーは in-context learning を実装するために異なるサブサーキットを発達させること、そしてどの仕組みが他よりも有利になるかの条件を見いだすことを示す。