AEM:マルチターン・エージェント型強化学習のための適応的エントロピー・モジュレーション
arXiv cs.AI / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、結果のみの疎な報酬の下でマルチターンのLLMエージェント強化学習を行う際の、スーパービジョン不要のクレジット割当て手法AEM(Adaptive Entropy Modulation)を提案する。
- AEMは、プロセス報酬モデルや補助的な自己教師あり信号のような高密度な中間スーパービジョンを追加せずに、エントロピーのダイナミクスを適応的に調整して探索と活用のバランスを改善する。
- 理論面では、サンプリング分散を抑えるためにエントロピー解析をトークン単位から応答単位へ引き上げ、自然勾配の下でのエントロピードリフトを特徴付ける。
- 実用的なプロキシを導出し、それにより学習ダイナミクスを再形成して探索から活用への自然な遷移を実現する。
- 1.5B〜32Bパラメータの幅広いモデルと各種ベンチマークで実験を行い有効性を確認し、特にSWE-bench-Verifiedにおける最先端ベースラインへの統合で1.4%の改善が得られた。
