要旨: 複数の無人航空機(UAV)による協調認識は、補完的なマルチビュー観測を活用して無線通信を介して認識性能を向上させる、低高度域のさまざまな経済用途に対して有望なパラダイムとして浮上しています。
しかし、複数のUAVが生成する膨大な視覚データは、通信遅延とリソース効率の観点で重大な課題をもたらします。
これらの課題に対処するため、本論文は通信オーバーヘッドを削減しつつ認識性能を高める、Base-Station-Helped UAV (BHU)と称する通信効率の高い協調認識フレームワークを提案します。
具体的には、UAVが撮影したRGB画像から最も情報量の多い画素を識別するTop-K選択機構を採用し、データ量と遅延を削減したスパース化視覚伝送を実現します。
スパース化された画像は、マルチユーザーMIMO(MU-MIMO)を介して地上サーバへ送信され、Swin-largeベースのMaskDINOエンコーダが鳥瞰視点(BEV)特徴を抽出し、地上車両認識のための協調特徴融合を実行します。
さらに、拡散モデルに基づく深層強化学習(DRL)アルゴリズムを開発し、協調UAVの選択、スパース化比、およびプリコーディング行列を共同で選択して、通信効率と認識有用性のバランスを実現します。
Air-Co-Predデータセットを用いたシミュレーション結果は、従来のCNNベースのBEV融合ベースラインと比較して、提案されたBHUフレームワークが認識性能を5%以上向上させる一方、通信オーバーヘッドを85%削減することを示しており、リソース制約のある無線環境下でのマルチUAV協調認識に対する有効なソリューションを提供します。
低高度無線ネットワークにおける多UAV協調知覚のための大規模視覚モデルの活用
arXiv cs.CV / 2026/3/19
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、基地局支援型UAV(BHU)フレームワークを提案し、低高度無線ネットワークにおける通信効率の高い多UAV協調知覚を実現する。
- UAVが撮影したRGB画像をTop-Kピクセル選択で疎化し、データ量と遅延を削減するために、最も情報量の多いピクセルのみを地上サーバへ送信する。
- 疎化された画像はマルチユーザMIMO(MU-MIMO)を介して送信され、Swin-LargeベースのMaskDINOエンコーダがBEV特徴を抽出し、地上車両の知覚のための協調特徴融合を実行する。
- 拡散モデルに基づく深層強化学習(DRL)アルゴリズムは、協調UAVの選択、疎化比率、およびプリコーディング行列を共同で決定し、通信効率と知覚有用性のバランスを取る。
- Air-Co-Predデータセットでの実験結果は、従来のCNNベースBEV融合ベースラインと比較して、通信オーバーヘッドを約85%削減しつつ、精度/知覚を5%以上改善した。