AI Navigate

強化学習カリキュラムの熱力学

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 非平衡熱力学を、報酬パラメータをタスク多様体上の座標としてモデル化することによって、強化学習におけるカリキュラム学習と結びつける。
  • 過剰熱力学的仕事を最小化することは、タスク空間の測地線となるカリキュラムを生み出し、カリキュラム設計の幾何学的解釈を提供する。
  • MEW(Minimum Excess Work)を導入し、最大エントロピー強化学習における温度アニーリングの原理的なスケジュールを計算するアルゴリズムを提示する。
  • 物理学に触発された理論と実践的なRL訓練戦略を結ぶ枠組みを提供し、最適化と一般化への潜在的影響をもたらす可能性がある。

要旨:統計力学と機械学習の間の接続は繰り返し有益であることが証明されており、最適化、一般化、および表現学習への洞察を提供します。本研究では、非平衡熱力学の結果を活用して、強化学習(RL)におけるカリキュラム学習を形式化するというこの伝統に従います。特に、報酬パラメータをタスク多様体上の座標として解釈することにより、RLの幾何学的フレームワークを提案します。我々は、過剰な熱力学的仕事を最小化することにより、最適なカリキュラムはこのタスク空間の測地線に対応することを示します。本フレームワークの応用として、最大エントロピーRLにおける温度アニーリングの原理的なスケジュールを導出するためのアルゴリズム、「MEW」(Minimum Excess Work)を提供します。