イン・コンテキスト学習の分布外汎化：低次元部分空間の観点から

arXiv stat.ML / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、イン・コンテキスト学習（ICL）が事前学習データの分布を超えて汎化できる／できない条件についての理解が不明確である点に取り組みます。
低ランクの共分散行列でパラメータ化した線形回帰タスクを用いた最小限の数学モデルを提案し、分布シフトを部分空間間の角度の変化として捉えます。
事前学習タスクベクトルが複数の部分空間の和（union）から得られる場合、単一層の線形アテンションモデルが全ての角度にわたって補間可能であり、学習分布に確率質量がない領域でもICLが汎化できると示します。
一方で、事前学習タスクが単一ガウス分布から得られる場合はテストリスクが角度に有意に依存し、ICLがOOD汎化に失敗することを示唆します。
さらに、GPT-2のようなモデルでも同様の傾向が成り立つこと、また非線形関数クラスへの拡張実験も提示しています。

要旨: トランスフォーマーの、文脈内学習（ICL）を行う驚異的な能力は、その強みと限界を理解するための幅広い研究を引き起こしてきました。とはいえ、ICLが事前学習データの範囲を超えて一般化できるのか、できないのかを理論的にいつ判定できるのかについては、いまだ不明確です。本論文では、ICLが分布外（OOD）へ一般化できる場合を、確実に特定できる最小限の数学モデルを提示します。低ランクの共分散行列によってパラメータ化された線形回帰タスクを調べることで、分布の変化を部分空間間の角度の変化としてモデル化し、単一層の線形注意モデルがあらゆる角度にわたって補間するための条件を導出します。事前学習タスクのベクトルが複数の部分空間の結合（union of subspaces）から引かれる場合、トランスフォーマーはすべての角度の変化に一般化できること、つまり訓練分布において確率質量がゼロとなる領域でもICLが可能になることを示します。一方、事前学習タスクが単一のガウス（single Gaussian）から引かれる場合、テストリスクは角度に対して無視できない依存性を示し、ICLがOODへ一般化できないことを意味します。さらに、本結果がGPT-2のようなモデルでも成り立つことを実験的に示し、結果が非線形な関数クラスへどのように拡張されるかについての実験も提示します。