要旨: 隠れベクトルのような不透明な隠れ状態として固定長の再帰状態を扱うのではなく、それを信念状態として明示的に解釈することで、RWKV-style の再帰シーケンスモデルの上に構築する、より強力な RL の定式化を提案します。単一の要約 h_t によって方策と価値を条件付けするのではなく、RWKV-style の再帰統計から導出されるコンパクトな不確実性を考慮した状態 b_t =(mu_t, Sigma_t)を維持し、制御が記憶と不確実性の両方に依存するようにします。この設計は、部分観測環境における素朴な固定状態方策の重要な弱点、すなわち証拠は保持できても、必ずしも確信(信頼度)を保持できるとは限らない、という点を狙い撃ちにしています。本手法、理論的なプログラム、および、エピソード単位の観測ノイズが隠れている状況でのパイロット RL 実験と、テスト時のノイズスイープを提示します。パイロット実験では、信念状態方策が全体として最良の再帰ベースラインにほぼ匹敵し、最も難しい in-distribution レジームでのリターンをわずかに改善し、さらに保持しておいたノイズシフト下でも改善することが示されます。追加のアブレーションでは、この単純な信念の読み出しが、より構造化された拡張である 2 つ、すなわちゲート付きのメモリ制御と特権的な信念目標よりも現時点で強いことが示されており、より豊かなベンチマークの必要性が強調されています。
部分観測下における強化学習のためのベル状態RWKV
arXiv cs.LG / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RWKVの再帰状態を不透明な隠れベクトルではなく明示的な信念状態(belief state)として解釈することで、部分観測下の強化学習に対する「Belief-State RWKV」を提案する。
- 隠れ要約 h_t 1つへの条件付けを、不確実性を考慮した信念状態 b_t = (μ_t, Σ_t) に置き換え、方策/価値が記憶と推定された確信度の両方を利用できるようにする。
- この手法は、固定状態の再帰ポリシーの限界を狙うものであり、証拠(evidence)を蓄積はできても、その証拠に対してどれほど確信があるかを必ずしも表現できない点を問題としている。
- 著者らは理論的な検討プログラムと、エピソードレベルの観測に対する隠れたノイズに加え、テスト時にノイズをスイープするパイロットRL実験を含めている。
- 結果として、信念状態ポリシーは全体として最強の再帰ベースラインにほぼ匹敵し、最も難しい分布内(in-distribution)条件および保持したノイズシフト下でリターンが改善されることが示される。さらにアブレーションの結果、この信念の読み出し(belief readout)が、ゲート付きメモリ制御や特権的信念ターゲットなどのより構造化された拡張よりも現時点で優れていることが示唆される。
