要約: リアルタイムで高忠実度なリモートセンシング画像からの単眼深度推定は、多くのアプリケーションにとって極めて重要ですが、現行の手法は精度と効率の間で顕著なトレードオフに直面しています。Vision Transformer (ViT) バックボーンを用いた密な予測は高速ですが、知覚品質が低いことが多く見られます。対照的に、拡散モデルは高忠実度を提供しますが、計算コストが大きすぎます。これらの制限を克服するため、リモートセンシング単眼深度推定の Depth Detail Diffusion (D^3-RSMDE) を提案します。速度と品質の最適なバランスを実現するよう設計された効率的なフレームワークです。本フレームワークはまず ViT ベースのモジュールを活用して、高品質な予備深度マップの構築を迅速に生成します。これは構造的事前情報として機能し、拡散モデルの時間のかかる初期構造生成ステージを効果的に置換します。この前提に基づき、Progressive Linear Blending Refinement(PLBR)戦略を提案します。これは軽量な U-Net を使用して、数回の反復のみで細部を洗練します。全体の洗練ステップは、Variational Autoencoder (VAE) によって支えられたコンパクトな潜在空間で効率的に動作します。豊富な実験により、D^3-RSMDE は Marigold のような先行モデルに対して、Learned Perceptual Image Patch Similarity (LPIPS) 知覚指標を顕著に 11.85% 低減し、推論の 40 倍以上の高速化を実現し、軽量な ViT モデルと同等の VRAM 使用量を維持することを示しています。)
D^3-RSMDE: 40×高速かつ高忠実度のリモートセンシング単眼深度推定
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ViTベースの高速な深度マップ初期化と、軽量なU-Netを用いたProgressive Linear Blending Refinement(PLBR)段階を組み合わせたD^3-RSMDEというフレームワークを提案する。
- この洗練はVAEの下にあるコンパクトな潜在空間で動作し、拡散モデルの時間のかかる初期構造生成を置換する。
- Marigoldなどの先行モデルに対してLPIPS知覚指標を11.85%低減し、推論は40倍超のスピードアップを実現しつつ、VRAMは軽量ViTモデルと同等の水準を維持する。
- このアプローチはリモートセンシング画像からのリアルタイムかつ高忠実度な単眼深度推定を可能にし、実用的な応用を広げる。

