電力系統のトポロジ制御のためのギブス事前分布付き物理インフォームド強化学習

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、電力網のトポロジ制御に対して、行動空間の組合せ的な増大と、行動の結果をシミュレーションするコストの高さに対処する物理インフォームド強化学習アプローチを提案する。
半マルコフ制御と、行動空間上で物理システムの制約を符号化するギブス事前分布を組み合わせることで、決定は主に系統が危険な状態に入ったときに行う。
グラフニューラルネットワークのサロゲートが、行動後の過負荷リスクを予測し、その予測を用いて状態依存の候補行動集合を構成し、さらに方策ロジットを再重み付けすることで、より効率的な行動選択を可能にする。
3つの、難易度が段階的に上がる現実的なベンチマークでの実験により、制御品質と計算効率の間に強いトレードオフが示される。具体的には、単純な課題ではオラクルに近い性能を達成し、より難しい設定ではPPOや専用のベースラインに対して大幅な改善が得られる。
全体として、本手法は学習済み方策の柔軟性を維持しつつ、探索の難しさ、オンラインシミュレーションコスト、そしてトポロジ制御における意思決定のレイテンシを大きく削減できることが示唆される。