Kernelized Advantage Estimation:非母数統計からLLM推論へ

arXiv cs.LG / 2026/5/1

📰 ニュースModels & Research

要点

  • この論文は、LLMの推論能力を高めるために広く使われる3つのRL手法(PPO/advantage actor-critic、GRPO、REINFORCE)を整理し、分散低減と計算・メモリ負荷、サンプル効率のトレードオフを明確にしています。
  • 著者らは、プロンプトごとにサンプリングできる推論トレース数が少ないという資源制約のある状況を想定し、それでも質の高い学習のために低分散な勾配推定が必要だと述べています。
  • 解決策として、非母数統計の古典的手法をLLMのRL学習へ取り込み、価値関数推定の具体例としてカーネルスムージングを採用しています。
  • 実験と理論の結果から、提案手法が価値関数と勾配推定を正確に行えることが示され、その結果として方策(ポリシー)最適化の改善につながると報告されています。
  • 全体として、価値推定ネットワークの維持コストや大量サンプリングに依存しない、より計算・統計効率の高い選択肢が示唆されています。

要旨: 大規模言語モデル(LLM)における最近の進歩は、推論能力を向上させるために強化学習(RL)への依存をますます強めています。広く採用されているアプローチは3つあります:(i)近位方策最適化(Proximal policy optimization)およびアドバンテージ・アクター・クリティック(advantage actor-critic)は、方策勾配の分散を低減するために、深いニューラルネットワークを用いて学習方策の価値関数を推定します。しかし、そのような価値ネットワークの推定と維持には、計算およびメモリの大きなオーバーヘッドがかかります。(ii)群相対方策最適化(Group relative policy optimization: GRPO)は、サンプル平均により価値関数を近似することで価値ネットワークを学習することを回避します。しかし、GRPOでは、正確な価値関数近似を達成するために、1プロンプトあたり多数の推論トレースをサンプリングする必要があり、計算コストが高くつきます。(iii)REINFORCE型のアルゴリズムは、1プロンプトあたり単一の推論軌跡のみをサンプリングするため、計算コストは低減されますが、サンプル効率が低いという問題があります。
本研究では、プロンプトあたりサンプルできる推論トレースがごく少数に限られるという、実用的で資源制約のある状況に焦点を当てます。このとき、質の高い方策学習のためには、低分散の勾配推定が依然として不可欠です。この課題に対処するため、LLMの推論に、計算面でも統計面でも効率的な古典的なノンパラメトリック統計手法を導入します。価値関数推定と、その後の方策最適化の具体例として、カーネル平滑化を用います。数値的および理論的な結果により、提案手法が正確な価値および勾配推定を実現し、その結果、方策最適化が改善されることを示します。