要旨: Transformer(トランスフォーマー)モデルは、その強力な経験的性能により、幅広い科学・工学分野において基盤となる存在になっています。成功の背景にある重要な能力は、コンテキスト内学習(ICL: in-context learning)です。すなわち、未知のタスクからの短いプロンプトが提示された場合、トランスフォーマーはパラメータ更新なしで、トークンごとの予測や次トークン予測を実行できます。近年、こうした現象のメカニズムを解明するための理論的取り組みが始まっており、特に教師あり回帰設定に注目されています。しかし、既存の分析の多くは定常(stationary)なタスク分布を前提としているため、目的関数が時間とともに変化する現実世界の幅広い状況を見落としています。本研究では、このギャップを埋めるべく、非定常回帰問題におけるICLの理論解析を行います。変化する入力—出力関係に対して、ゲート付き線形注意(GLA: gated linear attention)メカニズムがどのように適応するのかを調べ、動的なこの状況において標準的な線形注意に対するその利点を厳密に特徴づけます。非定常性をモデル化するために一次の自己回帰過程を採用し、GLAが過去の入力の影響を適応的に調整することで、学習時およびテスト時の誤差をより低く達成することを示します。これは、学習可能な近時性バイアス(recency bias)を実装しているのに等しい効果を持ちます。さらに、こうした理論的知見は実験結果によっても裏付けられ、非定常なICLタスクにおいてゲーティング・メカニズムの有益性が検証されています。
適応を学ぶ:定常性を超えたインコンテキスト学習
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、タスク間の関係が非定常、すなわち基礎となる入出力写像が時間とともに変化する場合に、トランスフォーマーのインコンテキスト学習(ICL)がどのように振る舞うかを調査する。
- 非定常な回帰設定に対する理論的解析を提示し、一次の自己回帰過程によってモデルの進化をモデル化する。
- 著者らは、ゲート付き線形アテンション(GLA)が、過去の入力が予測に与える影響の大きさを適応的に調整し、事実上、直近性(recency)バイアスを学習すると主張する。
- 理論的および実証的に、GLAはこれらの動的なICLタスクにおいて、標準的な線形アテンションよりも低い訓練誤差・テスト誤差を達成し得ることを示す。
- 実験により、データ生成過程が変動するもとでのICLにおけるゲーティング機構の有用性が検証され、先行研究の定常性に焦点を当てた分析が暗黙に置いていた前提のギャップを埋める。

