言語エージェントにおける政策と内部報酬の共進化

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMエージェントの長期行動における学習のボトルネックである「疎で遅延する報酬」を、外部報酬モデルに依存せず自己生成の内部報酬で解決する方針を提案しています。
提案手法Self-Guideは、推論時には自己生成した短いガイダンス信号で次の行動を誘導し、学習時には同じ信号をステップ単位の内部報酬へ変換して密な方策最適化を行います。
その結果、方策（policy）と内部報酬（internal reward）が相互に改善し合う「共進化ループ」が形成され、より良い方策がより良いガイダンスを生み、ガイダンスが方策をさらに押し上げると述べています。
3つのエージェント・ベンチマークで、推論時セルフガイダンス単体でも改善が見られ、GRPOで方策と内部報酬を同時に進化させると、環境報酬のみで学習したベースラインに対して約8%の上乗せが得られたと報告しています。

要旨: 大規模言語モデル（LLM）エージェントは環境と相互作用することで学習しますが、長いホライズンの学習は、本質的にまばらで遅延した報酬によってボトルネックになります。既存の手法は通常、この課題に対して事後的な信用割当（credit assignment）や外部の報酬モデルによって対処しますが、これらは推論時のガイダンスとしては限定的であることが多く、報酬の改善と方策（ポリシー）の改善がしばしば分離されます。我々は、言語エージェントのための自己生成内部報酬（Self-Guide）を提案します。Self-Guideは、推論時のガイダンスと学習時の監督の両方を支援します。具体的には、エージェントは推論中に Self-Guide を短い自己ガイダンス信号として用いて次の行動を誘導し、同じ信号を学習中のより密な方策最適化のためのステップ単位の内部報酬へと変換します。これにより、共進化するループが形成されます。すなわち、より良い方策がより良いガイダンスを生み、より良いガイダンスが内部報酬としてさらに方策を改善します。3つのエージェント・ベンチマークにおいて、推論時の自己ガイダンスだけでも明確な向上が得られます。一方、GRPOにより方策と内部報酬を共同で進化させることで、環境報酬のみで訓練したベースラインに対してさらに改善（8\%）が得られます。総じて、我々の結果は、言語エージェントが経験をより多く集めることだけでなく、行動と学習の過程において自身の内部報酬を生成し、洗練させることによっても改善できることを示唆しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/6Dailyインサイトを見る →

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

言語エージェントにおける政策と内部報酬の共進化

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに