鮮度（フレッシュネス）を考慮した優先度付き経験再生によるLLM/VLMの強化学習

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、PPO、GRPO、REINFORCE++ といった代表的なオンポリシーRLが、マルチターンのエージェント的タスクでは高コストであるにもかかわらず、LLM/VLMのポストトレーニングにおいてサンプル効率が低い理由を検討している。
その上で、LLM/VLMにPrioritized Experience Replay（PER）をそのまま適用すると、巨大モデルの政策が急速に更新されるため保存済みの優先度が陳腐化し、情報が薄れた軌跡が長く過剰にサンプリングされてしまうと主張している。
提案手法「Freshness-Aware PER」は、PERの優先度に“指数関数的な経年減衰（age decay）”を乗算で加えることで優先度の陳腐化を解決し、実効的サンプルサイズ解析に基づく動機付けを与えている。
0.5B、3B、7B のモデルを用い、8つのマルチステップのエージェント/推論/数学タスクで評価した結果、オンポリシー基準を大きく上回り（例：NQ Search +46%、Sokoban +367%、VLM FrozenLake +133%）、経年減衰なしの標準PERでは一貫して性能が悪化することが示された。
実装はGitHubで公開されており、LLM/VLMの強化学習パイプラインに導入できる。

要旨: 強化学習（RL）は、事後学習（post-training）の大規模言語モデル（LLM）およびビジョン・言語モデル（VLM）において目覚ましい成功を収めており、PPO、GRPO、REINFORCE++のようなオンポリシー手法が支配的なパラダイムとなっています。しかし、これらの手法は、単一の勾配更新の後に収集した軌跡をすべて破棄してしまうため、サンプル効率が低くなり、特にマルチターンの環境相互作用が高コストであるエージェント型タスクでは無駄が大きくなります。経験再生（Experience Replay）は、過去の軌跡を再利用し、有益なものを優先することで、従来のRLにおいてサンプル効率を向上させますが、LLMに対して優先度付き経験再生（Prioritized Experience Replay: PER）をそのまま適用すると失敗します。 10億パラメータ級モデルの急速なポリシー更新により、保存された優先度が陳腐化してしまい、有益ではなくなった後も古い高優先度の軌跡がサンプリングを支配し続けます。我々は、優先度の陳腐化問題に対処する Freshness-Aware PER（鮮度を考慮したPER）を提案します。これは、有効サンプルサイズの解析に基づく乗法的な指数的な「年齢（age）減衰」を、PERベースの任意の優先度に追加することで実現します。我々の知る限り、Freshness-Aware PER は、LLM/VLM の強化学習に対して PER を成功裏に適用した最初の研究です。 0.5B、3B、7B のモデルを用いて、8つのマルチステップのエージェント型、推論、および数学の競技タスクで評価します。 Freshness-Aware PER はオンポリシーベースラインを大幅に上回り、NQ Search で +46%、Sokoban で +367%、VLM FrozenLake で +133% の改善を達成します。一方で、年齢減衰を伴わない標準的な PER は一貫して性能を低下させます。我々のコードは https://github.com/Vision-CAIR/Freshness-Aware-PER で公開されています。