統合エントロピー制御による強化学習のターゲット探索

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、強化学習におけるGroup Relative Policy Optimization(GRPO)の重要な課題として、エントロピー崩壊により方策が早期に収束して多様性が失われる点を指摘しています。
  • 提案手法Unified Entropy Control for Reinforcement Learning(UEC-RL)は、難しいプロンプトでは探索を選択的に強めつつ、エントロピーが制御不能に増大するのを防いで学習を安定化させます。
  • このフレームワークは、必要なときに探索空間を拡張しながらも、学習中の最適化安定性を損なわないことを狙っています。
  • LLMおよびVLMの推論タスクに対する実験で、Pass@1とPass@kの両指標において既存の強化学習ベースラインより一貫した改善が示されています。
  • Geometry3KではUEC-RLがGRPOに対して相対で37.9%の改善を達成し、あわせてGitHubでコードを公開しています。

要旨: 近年の強化学習(RL)の進歩により、大規模言語モデル(LLM)および視覚言語モデル(VLM)の推論能力が向上してきました。しかし、広く用いられているGroup Relative Policy Optimization(GRPO)は一貫してエントロピー崩壊に悩まされており、その結果として方策が早期に収束し、多様性を失います。既存の探索手法は、探索中に追加のバイアスまたは分散を導入するため、最適化の安定性を維持することが困難です。そこで、強化学習のための統一エントロピー制御(UEC-RL)を提案します。UEC-RLは、探索と安定化のための的を絞った仕組みを提供する枠組みです。UEC-RLは、難しいプロンプトに対してより多くの探索を活性化し、潜在的で価値のある推論の軌跡を探索します。並行して安定化器(stabilizer)がエントロピーが制御不能に増大することを防ぎ、それによってモデルが信頼できる振る舞いを定着させる間も学習の安定性が保たれます。これらの構成要素により、必要に応じて探索空間を拡張しつつ、学習を通じて頑健な最適化を維持できます。LLMおよびVLMの推論タスクの両方に対する実験では、Pass@1およびPass@kの両方において、RLのベースラインを一貫して上回る改善が示されました。Geometry3Kでは、UEC-RLはGRPOに対して37.9 ext{ lap{ootnotesize otatebox[origin=c]{0}{fseries aisebox{0.3ex}{igcirc}}}}}%

統合エントロピー制御による強化学習のターゲット探索 | AI Navigate