AI Navigate

UAV交通シーン理解: クロススペクトル誘導型アプローチと統一ベンチマーク

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、照明条件の悪化に対処するために光学画像と熱画像のモダリティを融合し、堅牢なUAV交通シーン理解を実現するCross-spectral Traffic Cognition Network (CTCNet)を提案します。
  • 外部のTraffic Regulation Memory (TRM) プロトタイプを活用して、Prototype-Guided Knowledge Embedding (PGKE) モジュールを通じて視覚表現をドメイン固有の規制知識でグラウンディングし、複雑な交通挙動を認識します。
  • Quality-Aware Spectral Compensation (QASC) モジュールを含み、光学と熱のモダリティ間で双方向の文脈交換を可能にして、難環境下での特徴劣化を補償します。
  • Traffic-VQAを公開し、光学-熱の大規模UAV交通理解ベンチマーク(8,180組の画像ペアと31種類にわたる130万のQAペア)を提供します。CTCNetは最先端手法を大幅に上回ると報告され、データセットはGitHubで公開されています。
Abstract: 無人航空機(UAV)プラットフォームからの交通シーン理解は、柔軟な展開と広域モニタリング能力のため、知的交通システムにとって極めて重要です。しかし、従来の手法は現実の監視環境で顕著な課題に直面しており、光学画像への強い依存は夜間や霧といった悪条件下で性能低下を引き起こします。さらに、現在の Visual Question Answering (VQA) モデルは初歩的な認識タスクに限定され、複雑な交通挙動を評価するためのドメイン固有の規制知識を欠いています。これらの限界に対処するため、堅牢なUAV交通シーン理解のための新しいクロススペクトル交通認識ネットワーク(CTCNet)を提案します。具体的には、外部の Traffic Regulation Memory (TRM) からの高レベル意味的プロトタイプを利用して、ドメイン固有の知識を視覚表現にアンカーづけする Prototype-Guided Knowledge Embedding (PGKE) モジュールを設計し、複雑な挙動を理解し、微妙な交通違反を区別できるようにします。さらに、光学モダリティと熱モダリティの補完特性を活用して双方向の文脈交換を行い、難環境下での特徴劣化を効果的に補償して頑健な表現を実現する Quality-Aware Spectral Compensation (QASC) モジュールを開発しました。さらに、Traffic-VQAを構築しました。これは光学-熱の大規模な認知UAV交通理解ベンチマークで、31種類にわたる8,180組の画像ペアと130万のQ&Aペアから成ります。大規模な実験により、CTCNetが認知と知覚の両シナリオで最先端手法を大幅に上回ることを示しています。データセットは https://github.com/YuZhang-2004/UAV-traffic-scene-understanding に公開されています。