RewardFlow: 大規模言語モデルを用いたエージェント性を持つ強化学習のための状態グラフ上のトポロジーを考慮した報酬伝播

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

RewardFlowは、推論経路から状態グラフを構築し、トポロジーを考慮した伝播を適用することで、各状態の寄与度を定量化する、軽量な状態報酬推定手法である。
疎な終端報酬に対処し、報酬モデルの訓練に伴う計算負荷を軽減することで、状態レベルの最適化をより効率的に行えるようにする。
強化学習における密な報酬信号として使用した場合、RewardFlowは4つのエージェント性推論ベンチマーク全体で従来のベースラインを大幅に上回り、性能と頑健性の向上を示す。
著者らは、リンク先のGitHubリポジトリにオープンソースの実装を公開している。

要旨: 強化学習（RL）は、外部環境とともに大規模言語モデル（LLMs）のエージェント的推論能力を高める上で有望である。しかし、終端報酬の本質的な希薄性は、細粒度の状態レベル最適化を妨げる。プロセス報酬モデリングは有望な代替手段を提供する一方で、専用の報酬モデルを訓練することは、多大な計算コストとスケーリングの難しさを伴う。これらの課題に対処するため、RewardFlowを導入します。エージェント的推論タスクに合わせて状態レベルの報酬を推定する軽量な手法です。RewardFlow は、推論経路内の状態の固有の位相構造を、状態グラフを構築することによって活用します。これにより、成功への状態ごとの寄与を分析し、続いて位相を考慮したグラフ伝播を用いて寄与度を定量化し、客観的な状態レベルの報酬を生み出します。RL最適化の密な報酬として統合すると、RewardFlowは4つのエージェント的推論ベンチマークにおいて、従来のRLベースラインを大幅に上回り、卓越した性能、頑健性、および学習効率を示します。RewardFlow の実装は公開されています: https://github.com/tmlr-group/RewardFlow

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

RewardFlow: 大規模言語モデルを用いたエージェント性を持つ強化学習のための状態グラフ上のトポロジーを考慮した報酬伝播

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも