UAVReason: マルチモーダルな空中シーン推論と生成のための統一的で大規模なベンチマーク

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高高度のUAVでは、微小で密に詰まった物体、反復的なテクスチャ、さらに意味的な根拠付け・空間推論・制御可能な生成を破綻させるあいまいな真上(トップダウン)方向といった主要なドメインシフトのために、汎用の視覚言語モデルがうまく機能しないと主張する。
  • 高精度なUAVシミュレーション基盤から構築した、真上視点(ナディアビュー)のUAVシナリオに対する統一的な大規模マルチモーダルベンチマーク「UAVReason」を提案する。
  • UAVReasonは、単一フレーム、時間的な2フレーム、そしてクロスモーダル生成の設定にまたがって、VQA関連のサンプルを27.3万件以上集約し、空間軸と時間軸の両方にわたる22種類の推論タイプを評価する。
  • 本ベンチマークは、複数のモダリティ(RGB、深度、セグメンテーション)にわたって、推論と高精細な生成を統一的に評価できるようにし、VQAではEM/F1、セグメンテーションではmIoU、生成ではCLIP Scoreといった指標を用いる。
  • 著者らは、多タスク学習で訓練した強力な統一ベースラインを提案・検証し、一般ドメインのVLMに比べてUAVネイティブ性能が大幅に向上することを示す。データ/コード/評価ツールは公開予定である。

Abstract

視覚言語モデル(VLM)は地上視点での視覚理解において目覚ましい能力を示してきましたが、高高度の無人航空機(UAV)に展開するとしばしば破綻します。この失敗の主因は、非常に顕著なドメインシフトであり、微小で密に詰まった物体、反復的なテクスチャ、曖昧な真上(トップダウン)方向の姿勢によって特徴づけられます。これらの要因は、意味的なグラウンディングを深刻に阻害し、空間推論と制御可能な生成の双方を妨げます。この重要なギャップを埋めるために、我々は初めての、真上視点のUAVシナリオに特化した統一的大規模マルチモーダル・ベンチマークであるUAVReasonを提案します。これは、高忠実度なUAVシミュレーション・プラットフォームから導出されています。既存のUAVベンチマークが、主としてサイロ化されており物体検出やセグメンテーションのような単一タスクに焦点を当てているのに対し、UAVReasonは、詳細なキャプションを含む23.6Kの単一フレーム、68.2Kの2フレームの時間的シーケンス、188.8Kのクロスモーダル生成サンプルを含む、273K超のVisual Question Answering(VQA)ペアを唯一統合して提供します。このベンチマークは、空間軸および時間軸にまたがる22種類の多様な推論タイプを探ると同時に、RGB、深度、セグメンテーションというモダリティ間での高忠実度生成も評価します。さらに、マルチタスク学習により強力で統一されたベースラインモデルを確立します。大規模な実験により、VQAに対するEM/F1、セグメンテーションに対するmIoU、生成に対するCLIP Scoreといった多様な指標にわたって、提案する統一アプローチの有効性が検証されます。これらの結果は、汎用ドメインの視覚言語モデルの限界を示すとともに、統一的なマルチタスク学習がUAVネイティブな性能を大幅に向上させることを示しています。すべてのデータ、コード、評価ツールは、UAVマルチモーダル研究を推進するために公開します。