Smart Commander:大規模航空機フリートにおけるPHM意思決定最適化のための階層型強化学習フレームワーク

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、まばらで遅延したフィードバックと確率的なミッションプロファイルのもとで、大規模な航空機フリートにわたる軍用航空のプロノスティクス・アンド・ヘルス・マネジメント(PHM)の意思決定を最適化することを目的とした、階層型強化学習(HRL)フレームワーク「Smart Commander」を提案する。
  • 制御タスクを2層に分解する。すなわち、フリートレベルの戦略層「General Commander」が可用性とコストを最適化し、複数の戦術層「Operation Commanders」が出撃機編成(ソーティ生成)、整備スケジューリング、ならびにロジスティクス資源配分を扱う。
  • 次元の呪い、および従来のモノリシックな深層強化学習を困難にするまばら/遅延報酬に対処するため、階層化された報酬設計(reward shaping)と、計画を強化したニューラルネットワークを組み合わせる。
  • 独自の高忠実度離散事象シミュレーションで評価した結果、Smart CommanderはモノリシックDRLおよびルールベースのベースラインの両方を上回り、学習効率、スケーラビリティ、ならびに故障が起こりやすいシナリオにおける頑健性の向上が報告されている。
  • 全体として、これらの結果は、現実的な運用制約のもとで次世代のインテリジェントなフリート管理を実現するための実用的かつ信頼性の高いパラダイムとしてHRLが有望であることを示唆している。

Abstract

軍用航空における意思決定は、機規模の大規模フリート運用における「次元の呪い」、加えて疎なフィードバックと確率的なミッションプロファイルの組み合わせにより、予測・健康管理(PHM)は大きな課題に直面している。これらの課題に対処するため、本論文では、逐次的な整備および後方支援(ロジスティクス)の意思決定を最適化することを目的とした新規の階層型強化学習(HRL)フレームワーク「Smart Commander」を提案する。提案フレームワークは、複雑な制御問題を2層の階層構造に分解する。すなわち、戦略的なGeneral Commanderがフリート全体の稼働可能性とコスト目標を管理し、戦術的なOperation Commandersが出撃生成、整備スケジューリング、ならびに資源配分のための具体的な行動を実行する。提案手法は、航空機の構成のダイナミクスと支援ロジスティクスを捉える、独自に構築された高忠実度離散事象シミュレーション環境内で検証される。層状のリワード・シェイピングと計画強化型ニューラルネットワークを統合することで、本手法は疎で遅延するリワードに起因する困難を効果的に解決する。実証評価により、Smart Commanderが従来の単一型モノリシック深層強化学習(DRL)およびルールベースのベースラインを大幅に上回ることが示される。とりわけ、失敗が起こりやすい環境において、高いスケーラビリティと頑健性を示しつつ、学習時間を大幅に削減することを達成する。これらの結果は、HRLが次世代のインテリジェントなフリート管理における信頼できるパラダイムとなり得る可能性を示している。