UAVシーン変化キャプション生成の階層的二重変化協調学習

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

UAV-SCCを移動するUAVで撮影された動的な空撮画像における意味的変化を自然言語で記述するタスクとして定義し、時間的および空間的変動の両方に起因する視点差に対処します。
Hierarchical Dual-Change Collaborative Learning (HDC-CL) と Dynamic Adaptive Layout Transformer (DALT) を提案し、異なる空間レイアウトを適応的にモデル化し、重複領域と非重複領域から相互関連する特徴を学習します。
Hierarchical Cross-modal Orientation Consistency Calibration (HCM-OCC) を導入し、視点シフトの方向性に対する感度を高め、より正確な変化キャプションを実現します。
新しい UAV-SCC ベンチマークデータセットを構築し、最先端の結果を報告します。データセットとコードは受理後に公開される予定です。
本研究は UAV シーン理解を前進させ、動くカメラによる空撮画像の変化を自動的に説明する能力を向上させ、監視、地図作成、災害監視などの潜在的なアプリケーションをもたらします。

概要: 本論文は、可動視点から撮影された動的な空中画像における意味変化を自然言語で記述する新しいタスク、UAV Scene Change Captioning (UAV-SCC) を提案します。時間を追って固定カメラの視点から撮影された画像ペア間の差異を主に説明する従来のチェンジキャプショニングとは異なり、UAVシーンチェンジキャプショニングは動くカメラによって動的に捉えられた時間的および空間的なシーン変化に起因する画像ペアの差異に焦点を当てます。主な課題は、カメラ回転によって引き起こされる視点のシフトにより部分的に重なるシーン内容しか共有しない UAV の画像ペアから、視点誘起のシーン変化を理解し、2つの画像間の相対的な向き情報を効果的に活用することにあります。このタスクを解決するために、UAVシーンチェンジキャプショニングのための階層的デュアルチェンジ協調学習（HDC-CL）手法を提案します。特に、すなわち Dynamic Adaptive Layout Transformer (DALT) は、画像ペアの多様な空間レイアウトを適応的にモデル化するよう設計されており、重なり領域と非重なり領域から得られる相互関連特徴は、柔軟で統一的なエンコーディング層の内部で学習されます。さらに、視点シフト方向に対するモデルの感度を高め、より正確な変化キャプショニングを可能にする階層的クロスモーダル方向性一貫性校正（HCM-OCC）手法を提案します。このタスクの深い研究を促進するため、新しいベンチマークデータセット、UAV-SCCデータセットと名付けられたデータセットを構築します。これはUAVシーンチェンジキャプショニングのためのデータセットです。広範な実験により、提案手法はこのタスクにおいて最先端の性能を達成することが示されています。本論文が受理され次第、データセットとコードを公開します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

UAVシーン変化キャプション生成の階層的二重変化協調学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer