UAVReason: マルチモーダルな空中シーン推論と生成のための統一的で大規模なベンチマーク
arXiv cs.CV / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高高度のUAVでは、微小で密に詰まった物体、反復的なテクスチャ、さらに意味的な根拠付け・空間推論・制御可能な生成を破綻させるあいまいな真上(トップダウン)方向といった主要なドメインシフトのために、汎用の視覚言語モデルがうまく機能しないと主張する。
- 高精度なUAVシミュレーション基盤から構築した、真上視点(ナディアビュー)のUAVシナリオに対する統一的な大規模マルチモーダルベンチマーク「UAVReason」を提案する。
- UAVReasonは、単一フレーム、時間的な2フレーム、そしてクロスモーダル生成の設定にまたがって、VQA関連のサンプルを27.3万件以上集約し、空間軸と時間軸の両方にわたる22種類の推論タイプを評価する。
- 本ベンチマークは、複数のモダリティ(RGB、深度、セグメンテーション)にわたって、推論と高精細な生成を統一的に評価できるようにし、VQAではEM/F1、セグメンテーションではmIoU、生成ではCLIP Scoreといった指標を用いる。
- 著者らは、多タスク学習で訓練した強力な統一ベースラインを提案・検証し、一般ドメインのVLMに比べてUAVネイティブ性能が大幅に向上することを示す。データ/コード/評価ツールは公開予定である。




