AEM:マルチターン・エージェント型強化学習のための適応的エントロピー・モジュレーション

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、結果のみの疎な報酬の下でマルチターンのLLMエージェント強化学習を行う際の、スーパービジョン不要のクレジット割当て手法AEM(Adaptive Entropy Modulation)を提案する。
  • AEMは、プロセス報酬モデルや補助的な自己教師あり信号のような高密度な中間スーパービジョンを追加せずに、エントロピーのダイナミクスを適応的に調整して探索と活用のバランスを改善する。
  • 理論面では、サンプリング分散を抑えるためにエントロピー解析をトークン単位から応答単位へ引き上げ、自然勾配の下でのエントロピードリフトを特徴付ける。
  • 実用的なプロキシを導出し、それにより学習ダイナミクスを再形成して探索から活用への自然な遷移を実現する。
  • 1.5B〜32Bパラメータの幅広いモデルと各種ベンチマークで実験を行い有効性を確認し、特にSWE-bench-Verifiedにおける最先端ベースラインへの統合で1.4%の改善が得られた。

Abstract

強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、多ターン課題を解く能力を大きく前進させてきました。それでも、訓練は依然として難題です。というのも、疎な結果のみの報酬(outcome-only rewards)では、エージェントの行動軌道における各ステップに適切なクレジットを割り当てることが困難だからです。一般的な解決策は、プロセス報酬モデルや補助的な自己教師あり信号のような、密な中間的監督(dense intermediate supervision)を導入することですが、これは監督とチューニングの複雑性を増やし、さらにタスクや領域をまたいだ汎化がしばしばうまくいきません。本論文では、RL訓練中にエントロピーのダイナミクスを適応的に調整して、より効果的な探索と活用(exploration-exploitation)のトレードオフを実現する、監督不要のクレジット割当手法AEMを提示します。理論的に、トークンレベルから応答レベルへとエントロピー解析を拡張し、トークンサンプリングの分散を低減します。そして、自然勾配(natural gradients)下でのエントロピー・ドリフトが、本質的に、利得(advantage)と相対的な応答サプライズ(relative response surprisal)の積によって支配されていることを示します。具体的には、学習ダイナミクスを再形成するための実用的な代理指標(proxy)を導出し、探索から活用への自然な移行を可能にします。1.5Bから32Bパラメータの範囲にわたる、さまざまなベンチマークとモデルでの大規模実験により、AEMの有効性が示されます。特に、非常に難しいSWE-bench-Verifiedベンチマークにおいて、最先端のベースラインに統合した際に1.4パーセントの顕著な向上が確認されています。