言語エージェントにおける政策と内部報酬の共進化

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントの長期行動における学習のボトルネックである「疎で遅延する報酬」を、外部報酬モデルに依存せず自己生成の内部報酬で解決する方針を提案しています。
  • 提案手法Self-Guideは、推論時には自己生成した短いガイダンス信号で次の行動を誘導し、学習時には同じ信号をステップ単位の内部報酬へ変換して密な方策最適化を行います。
  • その結果、方策(policy)と内部報酬(internal reward)が相互に改善し合う「共進化ループ」が形成され、より良い方策がより良いガイダンスを生み、ガイダンスが方策をさらに押し上げると述べています。
  • 3つのエージェント・ベンチマークで、推論時セルフガイダンス単体でも改善が見られ、GRPOで方策と内部報酬を同時に進化させると、環境報酬のみで学習したベースラインに対して約8%の上乗せが得られたと報告しています。

要旨: 大規模言語モデル(LLM)エージェントは環境と相互作用することで学習しますが、長いホライズンの学習は、本質的にまばらで遅延した報酬によってボトルネックになります。既存の手法は通常、この課題に対して事後的な信用割当(credit assignment)や外部の報酬モデルによって対処しますが、これらは推論時のガイダンスとしては限定的であることが多く、報酬の改善と方策(ポリシー)の改善がしばしば分離されます。我々は、言語エージェントのための自己生成内部報酬(Self-Guide)を提案します。Self-Guideは、推論時のガイダンスと学習時の監督の両方を支援します。具体的には、エージェントは推論中に Self-Guide を短い自己ガイダンス信号として用いて次の行動を誘導し、同じ信号を学習中のより密な方策最適化のためのステップ単位の内部報酬へと変換します。これにより、共進化するループが形成されます。すなわち、より良い方策がより良いガイダンスを生み、より良いガイダンスが内部報酬としてさらに方策を改善します。3つのエージェント・ベンチマークにおいて、推論時の自己ガイダンスだけでも明確な向上が得られます。一方、GRPOにより方策と内部報酬を共同で進化させることで、環境報酬のみで訓練したベースラインに対してさらに改善(8\%)が得られます。総じて、我々の結果は、言語エージェントが経験をより多く集めることだけでなく、行動と学習の過程において自身の内部報酬を生成し、洗練させることによっても改善できることを示唆しています。