統合エントロピー制御による強化学習のターゲット探索

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、強化学習におけるGroup Relative Policy Optimization（GRPO）の重要な課題として、エントロピー崩壊により方策が早期に収束して多様性が失われる点を指摘しています。
提案手法Unified Entropy Control for Reinforcement Learning（UEC-RL）は、難しいプロンプトでは探索を選択的に強めつつ、エントロピーが制御不能に増大するのを防いで学習を安定化させます。
このフレームワークは、必要なときに探索空間を拡張しながらも、学習中の最適化安定性を損なわないことを狙っています。
LLMおよびVLMの推論タスクに対する実験で、Pass@1とPass@kの両指標において既存の強化学習ベースラインより一貫した改善が示されています。
Geometry3KではUEC-RLがGRPOに対して相対で37.9%の改善を達成し、あわせてGitHubでコードを公開しています。

要旨: 近年の強化学習（RL）の進歩により、大規模言語モデル（LLM）および視覚言語モデル（VLM）の推論能力が向上してきました。しかし、広く用いられているGroup Relative Policy Optimization（GRPO）は一貫してエントロピー崩壊に悩まされており、その結果として方策が早期に収束し、多様性を失います。既存の探索手法は、探索中に追加のバイアスまたは分散を導入するため、最適化の安定性を維持することが困難です。そこで、強化学習のための統一エントロピー制御（UEC-RL）を提案します。UEC-RLは、探索と安定化のための的を絞った仕組みを提供する枠組みです。UEC-RLは、難しいプロンプトに対してより多くの探索を活性化し、潜在的で価値のある推論の軌跡を探索します。並行して安定化器（stabilizer）がエントロピーが制御不能に増大することを防ぎ、それによってモデルが信頼できる振る舞いを定着させる間も学習の安定性が保たれます。これらの構成要素により、必要に応じて探索空間を拡張しつつ、学習を通じて頑健な最適化を維持できます。LLMおよびVLMの推論タスクの両方に対する実験では、Pass@1およびPass@ $k$ の両方において、RLのベースラインを一貫して上回る改善が示されました。Geometry3Kでは、UEC-RLはGRPOに対して37.9 ext{ lap{ootnotesize otatebox[origin=c]{0}{fseries aisebox{0.3ex}{ $igcirc$ }}}}}%

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

Dev.to

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

Dev.to

Codex向けにローカル/リモート履歴、ライブフィルタ、Markdownエクスポート、読み取り専用MCPサーバを備えたGNOME拡張を作った

Reddit r/artificial

AIエージェント用のオープンソースOSを作りました――いまあなたのために準備できています

Dev.to

キウイちゃんのログ：オーク材の大奪取（ログ獲得）奮闘記

Dev.to

統合エントロピー制御による強化学習のターゲット探索

要点

関連記事

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

Codex向けにローカル/リモート履歴、ライブフィルタ、Markdownエクスポート、読み取り専用MCPサーバを備えたGNOME拡張を作った

AIエージェント用のオープンソースOSを作りました――いまあなたのために準備できています

キウイちゃんのログ：オーク材の大奪取（ログ獲得）奮闘記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer