文脈をシャッフル:RoPE摂動付き自己蒸留による長文脈適応

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、短文脈で学習されたLLMを長文脈用途向けに微調整すると、重要な証拠の「絶対位置」に対する感度が高く、精度が揺れて脆くなり得ると指摘している。
  • その解決として、RoPE摂動付き自己蒸留(RoPE-Perturbed Self-Distillation)を提案し、同一の学習シーケンスに対してRoPEインデックスを摂動させることで複数の「ビュー」を作り、その間の一貫した予測を自己蒸留で学習させる。
  • この正則化により、脆い位置依存ではなく意味的シグナルへの依存を促すことを狙っている。
  • Llama-3-8BとQwen-3-4Bの長文脈適応実験では、RULER-64KでLlama-3-8Bが最大12.04%改善するなど、長文脈ベンチマークで一貫した向上が見られた。
  • さらに、元の学習コンテキスト窓を超えた長さの外挿性能も改善した。

概要: 大規模言語モデル(LLM)は、検索拡張生成や複数文書推論のように、信頼性の高い長文脈理解が求められる状況でますます運用されるようになっています。一般的な方針は、対象のシーケンス長に合わせて、事前学習済みの短文脈モデルを微調整することです。しかし我々は、標準的な長文脈適応が脆弱さを保ったままであり得ることを見出します。すなわち、モデルの精度は、関連する根拠の絶対的な配置に強く依存しており、タスク形式や難易度を制御しても高い位置分散が観測されます。
本研究では、位置ロバスト性を向上させる学習正則化であるRoPE-Perturbed Self-Distillation(RoPE摂動自己蒸留)を提案します。中核となる考え方は、RoPEインデックスを摂動させることで同一の訓練シーケンスに対する別の「見え方(views)」を形成することです。これは、文脈の一部を異なる位置へ実質的に移動することに相当します。そして自己蒸留によって、これらの見え方間で一貫した予測をモデルに生成させます。これにより、脆い位置依存ではなく、意味的な信号への依存を促します。Llama-3-8BおよびQwen-3-4Bの長文脈適応に関する実験では、長文脈ベンチマークで一貫した改善が示されます。具体的には、SFT後にLlama-3-8BでRULER-64Kが最大12.04%改善し、Qwen-3-4BでRULER-256Kが2.71%改善します。加えて、訓練時の文脈ウィンドウを超えた長さ外挿においても改善が得られています。