要旨:本論文では、空中ロボットの単眼カメラを活用して、低高度の未構造環境で深度とセマンティックマップを予測します。私たちは、Co-SemDepth と名付けた共同の深層学習アーキテクチャを提案します。これは、二つのタスクを正確かつ迅速に実行でき、さまざまなデータセットでその有効性を検証します。ニューラルネットワークの学習には大量の注釈付きデータが必要であり、UAV分野ではそのようなデータの入手が限られています。本論文では、新しい合成データセット TopAir を導入します。TopAir には、屋外環境を異なる高度で真下視点で撮影された画像が含まれており、ギャップを埋めるのに役立ちます。
訓練に合成データを用いることは便利ですが、テストの際に実データドメインへ移行する際には問題が生じます。複数の要因が合成データから実データへの汎化に与える影響を評価するため、広範な分析研究を実施します。本研究では、比較のために Co-SemDepth と TaskPrompter のモデルを用います。結果は、深度推定においては Co-SemDepth、セマンティックセグメンテーションにおいては TaskPrompter の汎化性能が優れていることを示します。また、どの訓練データセットがより良い汎化をもたらすかを特定することも可能です。さらに、合成ドメインと実ドメインのギャップを縮小するため、航空画像に対して合成スタイルを現実的なスタイルに変換する画像スタイル転送技術を検討します。Cycle-GAN および拡散モデルを用います。結果は、合成から実世界へのスタイル転送において拡散モデルの方が優れていることを示しています。
最後に、海洋ドメインに焦点を当て、その課題に対処します。Co-SemDepth は MidSea と呼ばれる収集済みの合成海洋データ上で訓練され、合成データと実データの両方でテストされます。その結果、SMD データセットの実データでテストした場合、Co-SemDepth の良好な汎化性能が示されますが、MIT データセットではさらなる向上が必要であることが分かります。
屋外環境におけるUAV向けリアルタイム単眼シーン解析
arXiv cs.CV / 2026/3/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Co-SemDepthは、低高度の屋外環境におけるUAV向けのリアルタイムモノキュラ深度推定とセマンティックマッピングのアーキテクチャであり、注釈データ不足に対処するため新しいTopAir合成データセットを活用している。
- 研究はCo-SemDepthが深度推定に優れる一方、TaskPrompterは強力なセマンティックセグメンテーションを提供し、合成データから実データへの評価における補完的な強みを示している。
- 合成データから実データへのドメイン適応をスタイル転送技術を用いて検討し、拡散ベースのスタイル転送がCycle-GANよりも空中画像のドメインギャップをより効果的に狭めると結論づけている。
- MidSeaデータを用いた海洋ドメイン実験へ拡張し、実データSMDで良好な汎化を報告するとともに、MITデータでの残る課題を指摘している。




