要旨: コンテキスト内学習(In-context learning、ICL)は、さまざまな系列タスクで事前学習されたトランスフォーマーが示す貴重な能力です。しかし、これまでの研究は、ICL がモデルの固有の IWL(in-weight learning)能力としばしば衝突することを観察しています。合成実験で玩具モデルが学習する表現空間を検討することによって、トランスフォーマーにおける文脈とサンプルの共有エンコード空間が、この衝突の潜在的な源である可能性があることを特定しました。これに対処するため、文脈とサンプルを、それぞれ二つの別個の空間(タスク表現空間とサンプル表現空間)に分離してエンコードするよう、モデルのアーキテクチャを変更しました。これら二つの空間を、単純でありながら原理的な枠組みの下でモデル化します。線形の表現構造を仮定し、それらを対となる双対空間として扱います。理論分析と実証的結果の双方が、提案するアーキテクチャ CoQE が単一値の回答設定で有効であることを示しています。それは、表現学習の向上を通じて ICL の性能を高めるだけでなく、合成の few-shot分類タスクと新たに設計された擬似算術タスクの横断で ICL と IWL の能力をうまく調和させることに成功します。コード: https://github.com/McGuinnessChen/dual-representation-space-encoding
デュアル表現空間エンコーディングによる文脈内学習とウェイト内学習の統合
arXiv cs.LG / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トランスフォーマーにおける文脈内学習(ICL)がしばしばウェイト内学習(IWL)と衝突する原因を、文脈とサンプルの共有エンコーディング空間に起因するものとして検証する。
- CoQEというデュアル表現アーキテクチャを提案し、単純な線形フレームワークの下でエンコーディングをタスク表現空間とサンプル表現空間に分離する。
- 本研究は理論分析と実証結果を提供し、CoQEがICLを強化し、疑似算術タスクを含む合成タスク全体でICLとIWLを調和させることを示す。
- 再現性のため、提供されたGitHub URLでコードを公開している。