概要: 言語モデルのコンテキストウィンドウを拡張するには、通常、高コストな長コンテキストの事前学習が必要となり、学習効率とデータ収集の両面で大きな課題をもたらします。本論文では、長コンテキストの想起(リトリーバル)能力が、長コンテキストウィンドウ内で、パックされた短コンテキストのサンプルのみで学習する場合であっても、ロジットベースの知識蒸留によって学生モデルへ移植できることを示す証拠を提示します。Rotary Position Embedding(RoPE)の観点から包括的な洞察を提供し、3つの主要な発見を確立します。第一に、先行研究と整合して、各学習段階で回転スペクトルの利用率を最大化する位相ごとのRoPEスケーリングは、知識蒸留の設定においても最良の長コンテキスト性能を達成することを示します。第二に、ロジットベースの知識蒸留が、位置情報を直接的に伝達できることを実証します。パックされた反復トークン系列を用いた実験設定により、クエリおよびキー・ベクトルから、連続するトランスフォーマ層を経て出力ロジットへ至るまでの、位置摂動の伝播を追跡し、位置情報が体系的に教師の出力分布に影響し、ひいては学生モデルが受け取る蒸留信号に影響することを明らかにします。第三に、長コンテキスト拡張の間におけるクエリ状態に関する構造化された更新パターンを解析により見出し、異なるパラメータ範囲が長コンテキスト学習に対して強い感度を示すことを突き止めます。
短いデータ、長い文脈:トランスフォーマにおける位置情報の知識蒸留
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、学生が短い文脈のサンプルをパッキングして学習するだけの場合でも、高価な長文脈の事前学習を行わずに、ログitベースの知識蒸留によってモデルが長文脈の検索能力を獲得できると主張する。
- 蒸留のセットアップにおいて最も強い長文脈性能が得られるのは、各学習段階で回転スペクトルの使用率を最大化するようなフェーズごとのRoPE(回転位置埋め込み)のスケーリングであることを示す。
- 著者らは、位置情報がログitベースの蒸留を通じて直接転送されること、そして位置の摂動がクエリ/キーのベクトルからトランスフォーマ層を経て伝播し、教師の出力分布に反映されることを実証する。
- パックされた繰り返しトークン列を用いた実験により、位置の効果が蒸留シグナルを体系的にどのように形作るかを追跡し、長文脈拡張におけるクエリ状態の更新に関する構造化されたパターンを特定する。




