トランスフォーマーのイン・コンテキスト学習能力に関する調査
arXiv cs.LG / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、推論時に与えられた例(入力と出力の組)だけで未見のタスクを解ける、トランスフォーマーのイン・コンテキスト学習(ICL)性能を調査しています。
- 合成データによるガウス混合の2値分類を用いた統制された実験により、イン・コンテキストでのテスト精度が入力次元、イン・コンテキスト例数、事前学習タスク数に応じてどのようにスケールするかを体系的に分析しています。
- 著者らは線形のイン・コンテキスト分類器の設定を用いて、文脈のみからタスク構造を推定できるかどうかを左右する幾何学的条件を切り分けています。
- さらに「良性のオーバーフィッティング」(ノイズのあるイン・コンテキストラベルを記憶する一方で、クリーンなテストデータでは高い汎化性能を示す)を検討し、その現れるパラメータ領域をデータの幾何学や学習曝露との関係で特徴づけています。
- 結果として、次元、信号の強さ、文脈情報といった要因が分類設定でICLが成功する条件/失敗する条件を左右することを、経験的なスケーリングの地図として示しています。



