トランスフォーマーのイン・コンテキスト学習能力に関する調査

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、推論時に与えられた例(入力と出力の組)だけで未見のタスクを解ける、トランスフォーマーのイン・コンテキスト学習(ICL)性能を調査しています。
  • 合成データによるガウス混合の2値分類を用いた統制された実験により、イン・コンテキストでのテスト精度が入力次元、イン・コンテキスト例数、事前学習タスク数に応じてどのようにスケールするかを体系的に分析しています。
  • 著者らは線形のイン・コンテキスト分類器の設定を用いて、文脈のみからタスク構造を推定できるかどうかを左右する幾何学的条件を切り分けています。
  • さらに「良性のオーバーフィッティング」(ノイズのあるイン・コンテキストラベルを記憶する一方で、クリーンなテストデータでは高い汎化性能を示す)を検討し、その現れるパラメータ領域をデータの幾何学や学習曝露との関係で特徴づけています。
  • 結果として、次元、信号の強さ、文脈情報といった要因が分類設定でICLが成功する条件/失敗する条件を左右することを、経験的なスケーリングの地図として示しています。

Abstract

Transformerは、文脈内学習(ICL)に対して強力な能力を示しており、推論時に与えられた例の入力—出力ペアのみを用いて、これまで見たことのないタスクを解くことを可能にします。先行する理論研究では、transformerが文脈内で線形分類を実行できる条件が明らかにされてきた一方で、この仕組みが成功するかどうかを左右する経験的なスケーリング挙動は、十分に特徴づけられていません。 本論文では、ガウス混合二値分類タスクに対する文脈内学習について、体系的な経験的研究を行います。FreiとVardi(2024)の理論的枠組みに基づき、文脈内テスト精度が3つの基本要因、すなわち入力次元、文脈内の例の数、事前学習タスク数にどのように依存するかを解析します。制御された合成設定と、線形な文脈内分類器の定式化を用いることで、モデルが文脈だけからタスク構造を推論できる幾何学的条件を切り分けます。 さらに、良性の過学習の出現についても調べます。これは、モデルがノイズを含む文脈内ラベルを記憶してしまう一方で、クリーンなテストデータに対しては依然として強い汎化性能を達成する現象です。次元性、系列長、タスク多様性、信号対雑音の各レジームにわたる大規模な探索を通じて、この現象が生じるパラメータ領域を特定し、それがデータの幾何学的性質と学習時の露出にどのように依存するかを特徴づけます。 本研究の結果は、文脈内分類におけるスケーリング挙動の包括的な経験的地図を提供し、文脈内学習が成功するか失敗するかを決めるうえで、次元性、信号の強さ、文脈情報が果たす重要な役割を浮き彫りにします。