低ランクのタスクに対するインコンテキスト学習線形回帰

arXiv stat.ML / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、現実のタスクで共通の構造がある場合にインコンテキスト学習(ICL)がどのように機能するかを、低ランク回帰問題で訓練した線形アテンションモデルを用いて解析します。
  • 高次元極限において、予測の分布と一般化誤差を厳密に特徴づけます。
  • 有限な事前学習データに由来する統計的ゆらぎが、暗黙の正則化として働くことを示します。
  • タスク構造に支配される一般化誤差の鋭い相転移を特定し、トランスフォーマーがタスク構造を「学習する」仕組みを理解するための理論的枠組みを提供します。

Abstract

文脈内学習(ICL)は現代の大規模言語モデルの重要な構成要素である一方、その理論的メカニズムはいまだ十分に解明されていない。特に、タスクが共通の構造を持つ実世界の応用において、ICLがどのように機能するのかは謎に包まれている。本研究では、低ランク回帰タスクで訓練された線形注意モデルを解析することでこの問題に取り組む。この設定のもとで、高次元極限における予測の分布と汎化誤差を厳密に特徴づける。さらに、有限の事前学習データにおける統計的ゆらぎが暗黙の正則化を引き起こすことを見出す。最後に、タスク構造によって支配される汎化誤差の鋭い相転移を特定する。これらの結果は、トランスフォーマーがどのようにしてタスク構造を学習するかを理解するための枠組みを提供する。