LongAct：固有の活性化パターンを活用した長文脈強化学習

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが長い文脈を処理する際に、クエリおよびキー・ベクトルに大きな活性化（高マグニチュード）のパターンが現れ、長文脈の推論において重要であることを報告している。
LongActという手法を提案し、一様なパラメータ更新をやめて、これらの顕著な活性化に関連する重みに焦点を当てる“サリシー（重要度）ガイドの疎更新”へ切り替える。
LongActはLongBench v2で約8%の改善を示し、さらにRULERベンチマークで一般化性能を高めた。
この手法は普遍的であるとされ、GRPOやDAPOなど複数の強化学習アルゴリズムにわたって一貫して性能向上が得られる。
研究は、報酬設計やデータ合成に主に依存するのではなく、モデルの固有の表現特性を学習に活用する観点から長文脈RLを捉え直している。

概要: 強化学習（RL）は、大規模言語モデル（LLM）の推論能力を高めるための重要な推進力として登場してきました。近年の進展は報酬エンジニアリングやデータ合成に焦点を当てるものが多い一方で、学習プロセスを導くためにモデルの内在的な表現特性を活用する研究はほとんどありません。本論文では、長いコンテキストを処理する際に、クエリベクトルおよびキーベクトルの中に高い大きさ（マグニチュード）の活性が存在することを最初に観察します。このような高マグニチュード活性の重要性を確立するモデル量子化の考え方と、長コンテキスト推論が本質的に疎な構造を示すという洞察に着想を得て、これらの重みが効果的なモデル最適化のための決定的な駆動要因として機能しているのだろうと仮説を立てます。これに基づき、LongAct という戦略を提案します。これは一様な更新から、顕著性（サリエンシ）に導かれた疎な更新へと切り替えるものです。これらの重要な活性に関連する重みのみを選択的に更新することで、LongAct は LongBench v2 で約 8% の改善を達成し、RULER ベンチマークで汎化性能も向上させます。さらに、本手法は顕著な汎用性を示し、GRPO や DAPO のような多様な RL アルゴリズムにわたって一貫して性能を押し上げます。大規模なアブレーション研究は、これらの顕著な特徴に焦点を当てることが長コンテキストの可能性を引き出す鍵であることを示唆しています。

看護師のためのChatGPT：記録・連絡・学習に役立つプロンプト

Dev.to

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

Dev.to

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

Dev.to

Codex向けにローカル/リモート履歴、ライブフィルタ、Markdownエクスポート、読み取り専用MCPサーバを備えたGNOME拡張を作った

Reddit r/artificial

AIエージェント用のオープンソースOSを作りました――いまあなたのために準備できています

Dev.to

LongAct：固有の活性化パターンを活用した長文脈強化学習

要点

関連記事

看護師のためのChatGPT：記録・連絡・学習に役立つプロンプト

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

Codex向けにローカル/リモート履歴、ライブフィルタ、Markdownエクスポート、読み取り専用MCPサーバを備えたGNOME拡張を作った

AIエージェント用のオープンソースOSを作りました――いまあなたのために準備できています

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer