Smart Commander:大規模航空機フリートにおけるPHM意思決定最適化のための階層型強化学習フレームワーク
arXiv cs.LG / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、まばらで遅延したフィードバックと確率的なミッションプロファイルのもとで、大規模な航空機フリートにわたる軍用航空のプロノスティクス・アンド・ヘルス・マネジメント(PHM)の意思決定を最適化することを目的とした、階層型強化学習(HRL)フレームワーク「Smart Commander」を提案する。
- 制御タスクを2層に分解する。すなわち、フリートレベルの戦略層「General Commander」が可用性とコストを最適化し、複数の戦術層「Operation Commanders」が出撃機編成(ソーティ生成)、整備スケジューリング、ならびにロジスティクス資源配分を扱う。
- 次元の呪い、および従来のモノリシックな深層強化学習を困難にするまばら/遅延報酬に対処するため、階層化された報酬設計(reward shaping)と、計画を強化したニューラルネットワークを組み合わせる。
- 独自の高忠実度離散事象シミュレーションで評価した結果、Smart CommanderはモノリシックDRLおよびルールベースのベースラインの両方を上回り、学習効率、スケーラビリティ、ならびに故障が起こりやすいシナリオにおける頑健性の向上が報告されている。
- 全体として、これらの結果は、現実的な運用制約のもとで次世代のインテリジェントなフリート管理を実現するための実用的かつ信頼性の高いパラダイムとしてHRLが有望であることを示唆している。



