概要: 本論文は、可動視点から撮影された動的な空中画像における意味変化を自然言語で記述する新しいタスク、UAV Scene Change Captioning (UAV-SCC) を提案します。時間を追って固定カメラの視点から撮影された画像ペア間の差異を主に説明する従来のチェンジキャプショニングとは異なり、UAVシーンチェンジキャプショニングは動くカメラによって動的に捉えられた時間的および空間的なシーン変化に起因する画像ペアの差異に焦点を当てます。主な課題は、カメラ回転によって引き起こされる視点のシフトにより部分的に重なるシーン内容しか共有しない UAV の画像ペアから、視点誘起のシーン変化を理解し、2つの画像間の相対的な向き情報を効果的に活用することにあります。このタスクを解決するために、UAVシーンチェンジキャプショニングのための階層的デュアルチェンジ協調学習(HDC-CL)手法を提案します。特に、すなわち Dynamic Adaptive Layout Transformer (DALT) は、画像ペアの多様な空間レイアウトを適応的にモデル化するよう設計されており、重なり領域と非重なり領域から得られる相互関連特徴は、柔軟で統一的なエンコーディング層の内部で学習されます。さらに、視点シフト方向に対するモデルの感度を高め、より正確な変化キャプショニングを可能にする階層的クロスモーダル方向性一貫性校正(HCM-OCC)手法を提案します。このタスクの深い研究を促進するため、新しいベンチマークデータセット、UAV-SCCデータセットと名付けられたデータセットを構築します。これはUAVシーンチェンジキャプショニングのためのデータセットです。広範な実験により、提案手法はこのタスクにおいて最先端の性能を達成することが示されています。本論文が受理され次第、データセットとコードを公開します。
UAVシーン変化キャプション生成の階層的二重変化協調学習
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- UAV-SCCを移動するUAVで撮影された動的な空撮画像における意味的変化を自然言語で記述するタスクとして定義し、時間的および空間的変動の両方に起因する視点差に対処します。
- Hierarchical Dual-Change Collaborative Learning (HDC-CL) と Dynamic Adaptive Layout Transformer (DALT) を提案し、異なる空間レイアウトを適応的にモデル化し、重複領域と非重複領域から相互関連する特徴を学習します。
- Hierarchical Cross-modal Orientation Consistency Calibration (HCM-OCC) を導入し、視点シフトの方向性に対する感度を高め、より正確な変化キャプションを実現します。
- 新しい UAV-SCC ベンチマークデータセットを構築し、最先端の結果を報告します。データセットとコードは受理後に公開される予定です。
- 本研究は UAV シーン理解を前進させ、動くカメラによる空撮画像の変化を自動的に説明する能力を向上させ、監視、地図作成、災害監視などの潜在的なアプリケーションをもたらします。