要旨: トランスフォーマーは幅広い応用領域で大きな成功を収めているものの、その成功を支える理論的基盤はほとんど解明されていません。本研究では、多様なシナリオやタスクに適用されるトランスフォーマーの強力な能力の正体を明らかにするために、トランスフォーマーを「学習者(student)」として用い、教師モデルのクラスから学ぶことを理論的に検討します。具体的に、我々の解析で対象とする教師モデルには、平均プーリングを伴う畳み込み層、グラフ畳み込み層、ならびに、疎なトークン選択モデルの変種[Sanford et al., 2023, Wang et al., 2024]や、グループ疎線形予測子[Zhang et al., 2025]を含む、さまざまな古典的な統計的学習モデルが含まれます。これらの教師モデルのクラスから学習する際、我々は、簡略化された「位置のみ(position-only)」注意機構を用いた1層トランスフォーマーが、教師モデルのすべてのパラメータブロックを確実に復元できることを証明し、したがって最適な母集団損失を達成することを示します。さらに、訓練済みトランスフォーマーが教師モデルを効率よく模倣することに基づいて、それらが、穏やかな仮定のもとで、分布外データの広いクラスに対しても良好に一般化できることを示します。本解析における鍵は、さまざまな学習タスクに共通する基本的な双線形(bilinear)構造を特定することであり、これにより、トランスフォーマーにとって教師としてそれらのタスクを扱う際に、これらのタスクに対する統一的な学習保証を確立できるようになります。
勾配降下法で訓練されたトランスフォーマーは、教師モデルのあるクラスを確実に学習できる
arXiv cs.LG / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、簡略化した「位置のみ」アテンションを用いた1層トランスフォーマーが、いくつかのクラスの教師モデルの全てのパラメータブロックを学習・復元でき、最適な母集団損失を達成できることを示す理論的結果を提示する。
- 分析対象の教師モデル族には、畳み込み/平均プーリング・ネットワーク、グラフ畳み込み層、ならびに疎なトークン選択の変種やグループ疎な線形予測器を含む複数の古典的な統計的学習モデルが含まれる。
- 著者らは、異なる学習課題が共通の双線形構造を共有していると主張し、この構造を用いて教師から学生への蒸留設定に対する統一的な学習保証を導出している。
- 学習にとどまらず、本研究では一般化挙動も検討し、穏やかな仮定のもとで訓練済みトランスフォーマーが分布外一般化を示すことを示している。
- 本成果は、トランスフォーマーが多様な課題で成功する理由の理論的基盤を強化する試みとして位置づけられており、トランスフォーマーを「教師を模倣するために勾配降下法で訓練された学生」として捉え直すことでその説明を与えようとしている。
