概要: 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な推進力として登場してきました。近年の進展は報酬エンジニアリングやデータ合成に焦点を当てるものが多い一方で、学習プロセスを導くためにモデルの内在的な表現特性を活用する研究はほとんどありません。本論文では、長いコンテキストを処理する際に、クエリベクトルおよびキー ベクトルの中に高い大きさ(マグニチュード)の活性が存在することを最初に観察します。このような高マグニチュード活性の重要性を確立するモデル量子化の考え方と、長コンテキスト推論が本質的に疎な構造を示すという洞察に着想を得て、これらの重みが効果的なモデル最適化のための決定的な駆動要因として機能しているのだろうと仮説を立てます。これに基づき、LongAct という戦略を提案します。これは一様な更新から、顕著性(サリエンシ)に導かれた疎な更新へと切り替えるものです。これらの重要な活性に関連する重みのみを選択的に更新することで、LongAct は LongBench v2 で約 8% の改善を達成し、RULER ベンチマークで汎化性能も向上させます。さらに、本手法は顕著な汎用性を示し、GRPO や DAPO のような多様な RL アルゴリズムにわたって一貫して性能を押し上げます。大規模なアブレーション研究は、これらの顕著な特徴に焦点を当てることが長コンテキストの可能性を引き出す鍵であることを示唆しています。
LongAct:固有の活性化パターンを活用した長文脈強化学習
arXiv cs.LG / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが長い文脈を処理する際に、クエリおよびキー・ベクトルに大きな活性化(高マグニチュード)のパターンが現れ、長文脈の推論において重要であることを報告している。
- LongActという手法を提案し、一様なパラメータ更新をやめて、これらの顕著な活性化に関連する重みに焦点を当てる“サリシー(重要度)ガイドの疎更新”へ切り替える。
- LongActはLongBench v2で約8%の改善を示し、さらにRULERベンチマークで一般化性能を高めた。
- この手法は普遍的であるとされ、GRPOやDAPOなど複数の強化学習アルゴリズムにわたって一貫して性能向上が得られる。
- 研究は、報酬設計やデータ合成に主に依存するのではなく、モデルの固有の表現特性を学習に活用する観点から長文脈RLを捉え直している。

