AI Navigate

エントロピーを保持する強化学習

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多くのポリシー勾配ベースの強化学習法が、学習過程で探索された軌跡のエントロピーを自然に低下させることがあり、これが探索と多様性を制限する可能性があると主張します。
  • 主要なポリシー勾配目的がエントロピーのダイナミクスに及ぼす影響を形式的に分析し、エントロピーの挙動に顕著な影響を与える数値精度のような経験的要因を特定します。
  • 著者らは、エントロピーを制御する明示的な機構として、エントロピーを調整するために優位性関数を変更するREPOを含む、エントロピー制御機構を提案します。また、ADAPOという適応的非対称クリッピング手法も提唱します。
  • これらのエントロピー保持法で訓練されたモデルは、訓練全体を通じて多様性を維持し、最終的なポリシーはより高い性能を示し、未知の環境への適応性も高まります。
  • 本研究は、エントロピーを能動的に監視・制御することを、RL訓練の重要な側面として強調し、エントロピーを放置してしまうのではなく、積極的に管理するべきだと訴えます。

要旨:ポリシー勾配アルゴリズムは、言語モデルの推論における最近の多くの進展を推進してきました。魅力的な特性は、それらが自らの軌跡から探索を通じて学習する能力であり、多様で創造的な解決策を育むうえで不可欠なプロセスです。本論文で示すように、多くのポリシー勾配アルゴリズムは、訓練の一部として自然にエントロピー――すなわち探索軌跡の多様性――を低下させ、探索能力を制限するポリシーへと収束させます。本稿では、エントロピーは訓練全体を通じて積極的に監視・制御されるべきであると主張します。主要なポリシー勾配目的がエントロピーの動力学に寄与することを形式的に分析し、エントロピー挙動に顕著な影響を与える数値精度のような経験的要因を特定し、エントロピー制御の明示的なメカニズムを提案します。これらには、エントロピーを調整するために優位性関数を変更する一連のアルゴリズムであるREPOと、適応的な非対称クリッピング手法であるADAPOが含まれます。エントロピー保持法で訓練されたモデルは訓練全体を通じて多様性を維持し、最終的なポリシーはより高い性能を発揮し、新しい環境での逐次学習の訓練性を保持します。