StateX：ポストトレーニングによる状態の拡張でRNNの想起（リコール）性能を向上

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、長い文脈からの情報想起を高めるために、RNNの再帰的な状態サイズを拡張するポストトレーニング枠組み「StateX」を提案しています。
再帰モデルの重要な弱点として、長文脈の情報が固定サイズの状態に圧縮されるため、正確な長距離リコールが難しくなる点が挙げられます。
StateXは2つのRNN系（線形アテンションと状態空間モデル）に対して、状態サイズをスケールしつつパラメータ増加をゼロまたはごく小さく抑えるためのアーキテクチャ修正を設計しています。
約13億パラメータまでのモデルでの実験により、ポストトレーニングのコストを高めることなく、リコールとインコンテキスト学習性能が向上し、他の能力も損なわないことが示されています。

要旨: 線形アテンションや状態空間モデルのような再帰型ニューラルネットワーク（RNN）は、長いコンテキストを処理する際の計算がトークンごとに一定であることから人気を集めてきました。しかし、これらの再帰型モデルは、長いコンテキストから文脈情報を正確に想起することを必要とするタスクでは苦戦します。なぜなら、文脈情報のすべてが固定サイズの再帰状態に圧縮されてしまうからです。先行研究では、想起能力は再帰状態のサイズと正の相関があることが示されていますが、大きな再帰状態をもつRNNを直接学習させると学習コストが高くなります。本論文では、事前学習済みのRNNの状態を効率的に拡張するポストトレーニングの枠組みであるStateXを提案します。人気のある2つのRNNクラス、線形アテンションと状態空間モデルに対して、StateX内でポストトレーニングのためのアーキテクチャ修正を設計し、モデルパラメータの増加なし、または増加が無視できる程度で、状態サイズをスケールアップできるようにします。最大1.3Bパラメータのモデルでの実験により、StateXは高いポストトレーニングコストを負うことなく、また他の能力を損なうこともなく、RNNの想起およびインコンテキスト学習の性能を効率的に向上させることが示されました。