Last-Layer-Centric Feature Recombination:単眼深度推定におけるDINOv3の3D幾何知識の活用

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼深度推定(MDE)が視覚基盤モデル(VFM)により改善される一方、DINOベースの既存手法では中間層を一様にサンプリングすることで3Dの手がかりを十分に活かしきれていない可能性を指摘しています。
  • DINOv3の層ごとの分析により、幾何/深度に関する情報はトランスフォーマ層内で一様ではなく、深い層ほど深度の予測可能性が高く、サンプル間の幾何的な変動もより良く捉えることが分かったとしています。
  • そこで提案されるのが、最終層を幾何学的アンカーとみなし、最小類似度基準に基づいて補完的な中間層を適応的に選択する Last-Layer-Centric Feature Recombination(LFR)モジュールです。
  • 選択された中間特徴は、コンパクトな線形アダプタを介して最終層表現と融合され、幾何的表現力を高めます。
  • 実験ではMDE精度が一貫して向上し、最先端(SOTA)の性能も報告されるとともに、VFM内部で3D知識がどこに組織化されているかに関する洞察が示されています。

要旨: 単眼深度推定(MDE)は、基礎的である一方、根本的に解が不適切(ill-posed)な課題である。近年の視覚基盤モデル(VFM)、とりわけDINOベースのトランスフォーマーは、密な予測における精度と汎化性能を大幅に改善してきた。従来研究の多くは統一的なパラダイムに従っており、固定された中間トランスフォーマーレイヤーの集合を等間隔でサンプリングして、多尺度の特徴を構築する。こうした一般的な手法は、幾何情報がレイヤー間で一様に分布していることを暗黙に仮定しているが、VFMに符号化された構造的な3D手掛かりを十分に活用できていない可能性がある。本研究では、DINOv3に対してレイヤーごとの体系的な分析を行い、3D情報が非一様に分布していることを明らかにする。すなわち、より深いレイヤーほど深度の予測可能性が強く、サンプル間の幾何学的な変動をよりよく捉える。これに動機づけられ、幾何表現力を高めるためのLast-Layer-Centric Feature Recombination(LFR)モジュールを提案する。LFRは最終レイヤーを幾何学的アンカーとして扱い、最小類似性基準に基づいて補完的な中間レイヤーを適応的に選択する。選択した特徴は、コンパクトな線形アダプタを介して最終レイヤーの表現と融合される。大規模な実験により、LFRモジュールが一貫してMDEの精度を向上させ、最新(state-of-the-art)の性能を達成することを示す。本分析は、VFMの内部で幾何知識がどのように整理されているかを明らかにするとともに、密な3Dタスクにおいてその潜在能力を引き出すための効率的な戦略を提供するものである。