概要: 大規模言語モデルは多様な分野で優れている一方で、長期的なエージェント志向の意思決定タスクにおける性能は依然として制限されている。既存の多くの手法は、マルチターン強化学習を通じて性能を向上させるための効果的な報酬モデル(RMs)の設計に集中している。しかし、それらは疎な結果報酬における遅延伝播と、過度に細粒度で焦点が定まらないターンレベルのプロセス報酬によるクレジット割り当ての信頼性の低下に悩まされる。本論文では、(HISR)を提案し、事後情報を活用してセグメントレベルのプロセス報酬を調整する。これにより報酬はサブゴールに密着し、重要なセグメントを強調してクレジット割り当ての信頼性を高める。具体的には、タスク内の各サブゴールに対して報酬を割り当てるセグメントレベルのプロセスRMを提示し、ターンへの過度に細粒度な割り当てを回避する。軌跡中の重要なセグメントを強調するために、軌跡の結果を知った上で特定の行動を実行することの好みを反映する事後モデルを設計する。この特徴を用いて、HISRとポリシーモデル間の系列尤度比を設計し、行動の重要性を測定する。次に、これらの比を用いてセグメント重要度スコアを集約し、それがセグメントレベルのプロセス報酬を調整してクレジット割り当ての信頼性を高める。3つの公開ベンチマークにおける広範な実験結果は、本手法の妥当性を示している。
HISR: 後知情報で調整されたセグメント型報酬による多ターンエージェント性強化学習
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、HISR(Hindsight Information Modulated Segmental Rewards)を提案し、後知情報を用いてサブゴールと報酬を整合させることで長期的なエージェント駆動型強化学習の性能を向上させる。
- セグメントレベルの報酬モデルは、個々のターンではなくサブゴールに報酬を割り当てることで、過度に細粒度なクレジット割り当てを回避する。
- 後知モデルは、軌跡結果に基づく行動の嗜好を捉え、後知情報モデルとポリシーモデルのシーケンス尤度比を計算して、行動の重要性を評価する。
- これらの行動重要度比はセグメント重要度スコアへ集約され、セグメント報酬を調整してクレジット割り当ての信頼性を高める。3つの公開ベンチマークでの実験により有効性が示された。




