階層型スパース注意モデルにおける長さ一般化の理解と改善
arXiv cs.CL / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 標準的なTransformerは計算量が二次的になり、さらに長い系列への外挿能力が乏しいため、長文脈処理は依然として大きな課題です。
- 本論文は、極端な長さ一般化を狙うチャンクベースのスパース注意モデルを体系的に分解し、その性能を左右する要因を特定しようとします。
- 統一的な枠組みと広範なアブレーション実験により、重要な設計原則として(1)検索用の表現を作るための専用CLSトークン付きの表現力ある非線形チャンクエンコーダ、(2)ローカルの残差ストリームに上書きされずに取得したグローバル情報を安定して統合するバイパス残差パス、(3)学習時に選択スパース性を強制して学習・テスト間の分布ギャップを埋めること、の3点を示します。
- チャンク内の情報処理と「ランドマーク生成」が効く理由について理論的な動機づけも提示し、4K文脈で学習したモデルをRULERとBABILongで32百万トークンまで“追加学習なし”で一般化でき、新しい最先端性能を報告しています。
- まとめると、本研究はチャンク・スパースの暗黙的な直感を、再利用可能な実証に基づく設計原則へと整理し、次世代の長文脈言語モデル開発に向けた指針を与えます。