ハイブリッド・エネルギー対応報酬整形: ポリシー最適化のための統一的で軽量な物理情報主導手法
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、Hybrid Energy-Aware Reward Shaping(H-EARS)を提案する統一的なアプローチであり、ポテンシャルベースの報酬整形とエネルギーを考慮した行動正則化を結合し、モデルフリー強化学習におけるポリシー最適化を改善します。
- H-EARSは、全動的モデルを必要とせず、主要なエネルギー成分を捉えることにより計算量を線形 O(n) に抑えます。
- 著者らは、タスク最適化とエネルギー最適化の機能的独立性、エネルギーに基づく収束加速、関数近似下での収束保証、そして近似的なポテンシャル誤差境界を含む理論的基盤を提示します。
- 実験結果は、ベースライン全体で収束性、安定性、エネルギー効率の向上を示し、車両シミュレーションによって極端な条件下での安全性が重要なドメインへの適用性が検証されます。
- 本研究は、完全なシステムモデルを必要とせず、軽量な物理事前知識をモデルフリーRLへ統合することにより、研究室の研究を産業界へ移行する可能性を高めると示唆します。
深層強化学習は連続制御に卓越していますが、多くの場合広範な探索を必要とし、物理ベースのモデルは完全な方程式を要求し、三次の計算量に苦しみます。本研究では、Hybrid Energy-Aware Reward Shaping (H-EARS) を提案し、ポテンシャルベースの報酬整形とエネルギーを意識した行動正則化を統一します。H-EARSは、全動力学を用意することなく動作の大きさを制約しつつ、機能分解によってタスク特有のポテンシャルとエネルギーポテンシャルのバランスを取り、主要なエネルギー成分を捉えることにより線形計算量 O(n) を達成します。我々は、以下の理論的基盤を確立します: (1) タスク/エネルギー最適化を分離する機能的独立性; (2) エネルギーに基づく収束加速; (3) 関数近似下での収束保証; (4) 近似的ポテンシャル誤差境界。リャプノフ安定性との関連性はヒューリスティックな指針として分析されます。ベースライン間の実験は、収束性、安定性、およびエネルギー効率の改善を示します。車両シミュレーションは、極端な条件下で安全性が重要な領域への適用可能性を検証します。結果は、軽量な物理的事前知識を組み込むことにより、完全なシステムモデルを必要とせず、モデルフリーRLを向上させ、研究室の研究を産業応用へ移すことを可能にすることを確認しました。