解釈可能性から性能へ：長文コンテキスト言語モデルのリトリーバルヘッド最適化

arXiv cs.CL / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

機械的解釈可能性の研究により、文脈から情報を引き出す役割を担うリトリーバルヘッドが重要だと示されているが、それが長文コンテキストの性能向上にどう効くかは未解明だった。
本論文では、通常のモデル出力と、リトリーバルヘッドをマスクしたアブレーション版の出力を対比して学習信号を生成する RetMask を提案している。
RetMask は長文性能で大きな改善をもたらし、Llama-3.1 で HELMET（128K）に +2.28 ポイントの向上が確認され、さらに引用生成やパッセージの再ランキングでも相対的に大きな伸びを示しつつ、汎用タスクの性能は維持している。
3つのモデルファミリーにわたる4モデルでの実験では一貫して長文性能の改善が見られ、改善の強さはリトリーバルスコア分布の疎さ（少数のヘッドに能力が集中している度合い）と相関している。
これらの結果はリトリーバルヘッドの機能的役割を裏づけ、機械的解釈可能性の知見を実際の性能向上へ転換できることを示している。

要旨: 機械的解釈可能性における進展は、文脈から情報を取得する役割を担う特殊な注意ヘッドである「リトリーバルヘッド（retrieval heads）」に特別な注目が必要であることを明らかにしてきました。しかし、モデル性能の向上においてこれらのリトリーバルヘッドが果たす役割は未解明のままです。本研究は、リトリーバルヘッドを活用してLLMの長文コンテキスト能力を強化できるのかを調査します。具体的には、RetMaskという方法を提案します。これは、通常のモデル出力と、リトリーバルヘッドをマスクしたアブレーション版の出力を対比することで学習シグナルを生成するものです。このメカニズムに基づくアプローチにより、顕著な改善が得られます。Llama-3.1で128KにおけるHELMETで+2.28ポイントを達成し、引用付き生成では+70%の向上、パッセージの再ランキングでは+32%の向上を示しつつ、一般タスクでの性能は維持します。3つの系統にまたがる4つのモデルに対する実験により、RetMaskは一貫して長文コンテキスト性能を改善することが示されます。さらに、得られる改善はリトリーバルスコア分布の疎性（sparsity）と相関します。すなわち、リトリーバル能力が少数のヘッドに集中している、より疎な分布を持つモデルほど強く応答し、一方で疎性が低い分布を持つモデルではより控えめな改善にとどまります。これらの結果は、リトリーバルヘッドの機能的役割を裏付けるとともに、機械的洞察が性能向上へと変換できることを示しています。