要旨: 大規模言語モデル(LLM)ベースのエージェントは、ツール使用によって外部環境と相互作用する能力を高めるために、強化学習(RL)で訓練されることがますます増えています。特に、複数ターンの推論や知識獲得を必要とする探索ベースの設定ではその傾向が顕著です。しかし、既存の手法は一般に、最終回答を生成したときにのみ排他的に与えられる、結果(アウトカム)ベースの報酬に依存しています。この報酬の疎性は、長い軌道によって3つの重要な問題が顕在化するマルチターン設定で、とりわけ深刻になります:(i)優位性(advantage)の崩壊。すべてのロールアウトが同一の報酬を受け取り、有用な学習シグナルを提供できなくなる;(ii)きめ細かなクレジット割り当ての欠如。中間ターンの正しさが、特に長いホライズン課題では不明瞭になる;そして(iii)サンプル効率の低さ。各ロールアウトが1つの結果シグナルしか生まないため、データ利用率が低くなる。本論文では、マルチターンのエージェント訓練に対して、密で内在的な(intrinsic)教師信号を提供する、シンプルかつ効果的なRLフレームワークである情報利得ベースの方策最適化(Information Gain-based Policy Optimization: IGPO)を提案します。IGPOは、各相互作用ターンを、真値(ground truth)に関する情報を獲得するための増分的なプロセスとしてモデル化し、ターン単位の報酬を、正しい回答を生成する確率に対する方策の限界的な増加(marginal increase)として定義します。外部の報酬モデルや高コストなモンテカルロ推定に依存する先行のプロセス単位の報酬アプローチとは異なり、IGPOはモデル自身の信念更新(belief updates)から内在的報酬を直接導出します。これらの内在的なターン単位報酬は、結果単位の教師信号と組み合わせて、密な報酬シグナルを形成します。ドメイン内およびドメイン外の双方に関する広範な実験により、IGPOはマルチターン状況において一貫して強力なベースラインを上回り、高い精度と改善されたデータ効率を達成することが示されます。コードは https://github.com/GuoqingWang1/IGPO で公開しています。
情報利得に基づくポリシー最適化:多ターン探索エージェントのためのシンプルで効果的なアプローチ
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文では、最終回答が生成された後にのみ監督信号が与えられる場合、多ターン設定においてLLM探索エージェントの強化学習(RL)トレーニングが報酬の疎性に悩まされると主張している。
- 情報利得に基づくポリシー最適化(IGPO)を提案し、各インタラクションのターンが進むにつれて、正しい回答を生成する確率がどれだけ増加するか(限界的な増分)を推定することで、ターンごとの密な報酬を与える。
- IGPOは、モデル自身の信念更新から内在的な監督を直接導出し、先行研究の一部で用いられる外部の報酬モデルや高コストなモンテカルロ推定への依存を回避する。
- in-domainおよびout-of-domainの多ターン探索ベンチマークでの実験により、IGPOは強力なベースラインと比べて精度とサンプル効率を改善することが示されている。
- 著者らは、再現と多ターンエージェントの学習への導入を支援するため、オープンソースの実装を提供している。




