UAV-MARL: 時間制約のある動的な医療物資配送のためのマルチエージェント強化学習

arXiv cs.LG / 2026/3/12

📰 ニュースModels & Research

共有:

要点

本論文は、確率的な医療配送シナリオにおけるUAV部隊の協調を目的としたマルチエージェント強化学習フレームワークを提案し、それを部分観測可能マルコフ決定過程（POMDP）として定式化します。
主な学習アルゴリズムとしてPPOを採用し、非同期拡張や古典的な actor–critic 法を含む複数の派生を評価して、スケーラビリティとトレードオフを分析します。
このフレームワークは、医療タスクを優先し、緊急物流を支援するためにUAV資源をリアルタイムで再配分する意思決定サポート層を提供します。
OpenStreetMap から得られた実世界の地理データを評価に活用し、PPO が他の学習戦略と比べて優れた協調性能を発揮することを示します。

本文: arXiv:2603.10528v1 発表タイプ: 新規要旨: 無人航空機（UAV）は、時間制約のある医療物資の配送を支援するためにますます活用されており、緊急時や資源不足時に迅速で柔軟な物流を提供します。しかし、UAV部隊の効果的な展開には、医療要求を優先し、限られた空中資源を割り当て、未知の運用条件下で配送スケジュールを適応させることができる協調機構が必要です。本文は、要求が緊急性、場所、および配送期限の点で変動する確率的医療配送シナリオにおいて、UAV部隊を調整するためのマルチエージェント強化学習（MARL）フレームワークを提示します。この問題は、通信および位置特定の制約のため他のエージェントの可視性が限られる中で、UAVエージェントが医療配送需要を認識し続ける部分観測可能マルコフ決定過程（POMDP）として定式化されます。提案フレームワークは、主な学習アルゴリズムとしてProximal Policy Optimization（PPO）を採用し、非同期拡張、古典的な actor–critic 法、およびアーキテクチャの変更を含むいくつかのバリアントを評価して、スケーラビリティとパフォーマンスのトレードオフを分析します。モデルは、OpenStreetMapデータセットから抽出された選択された診療所や病院の実世界の地理データを用いて評価されます。フレームワークは、医療タスクを優先する意思決定サポート層を提供し、リアルタイムでUAV資源を再配分し、緊急物流を管理する医療従事者を支援します。実験の結果、古典的なPPOは非同期および逐次学習戦略と比較して優れた協調性能を達成することが示され、適応的かつスケーラブルなUAV支援型医療物流の可能性が強調されます。