AI Navigate

RewardFlow: 大規模言語モデルを用いたエージェント性を持つ強化学習のための状態グラフ上のトポロジーを考慮した報酬伝播

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RewardFlowは、推論経路から状態グラフを構築し、トポロジーを考慮した伝播を適用することで、各状態の寄与度を定量化する、軽量な状態報酬推定手法である。
  • 疎な終端報酬に対処し、報酬モデルの訓練に伴う計算負荷を軽減することで、状態レベルの最適化をより効率的に行えるようにする。
  • 強化学習における密な報酬信号として使用した場合、RewardFlowは4つのエージェント性推論ベンチマーク全体で従来のベースラインを大幅に上回り、性能と頑健性の向上を示す。
  • 著者らは、リンク先のGitHubリポジトリにオープンソースの実装を公開している。

要旨: 強化学習(RL)は、外部環境とともに大規模言語モデル(LLMs)のエージェント的推論能力を高める上で有望である。しかし、終端報酬の本質的な希薄性は、細粒度の状態レベル最適化を妨げる。プロセス報酬モデリングは有望な代替手段を提供する一方で、専用の報酬モデルを訓練することは、多大な計算コストとスケーリングの難しさを伴う。これらの課題に対処するため、RewardFlowを導入します。エージェント的推論タスクに合わせて状態レベルの報酬を推定する軽量な手法です。RewardFlow は、推論経路内の状態の固有の位相構造を、状態グラフを構築することによって活用します。これにより、成功への状態ごとの寄与を分析し、続いて位相を考慮したグラフ伝播を用いて寄与度を定量化し、客観的な状態レベルの報酬を生み出します。RL最適化の密な報酬として統合すると、RewardFlowは4つのエージェント的推論ベンチマークにおいて、従来のRLベースラインを大幅に上回り、卓越した性能、頑健性、および学習効率を示します。RewardFlow の実装は公開されています: https://github.com/tmlr-group/RewardFlow