M2H-MX：リアルタイム単眼空間理解のためのマルチタスク・デンス視覚知覚

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボティクスに向けて単一カメラの映像ストリームから単眼の空間理解を向上させることを目的とした、リアルタイム対応のマルチタスク・デンス視覚知覚モデル「M2H-MX」を提案する。
これは、マルチスケールの特徴保持に、register-gatedなグローバル文脈、そして軽量なデコーダ内で慎重に制御されたタスク間相互作用を組み合わせることで、レイテンシ制約下でも高速な深度および意味（セマンティクス）予測を可能にする。
深度と意味の出力は、変更を加えない単眼SLAMパイプラインに対して、コンパクトな知覚からマッピングへのインターフェースを通じて直接統合され、安定したin-the-loop性能を目指す。
実験ではNYUDv2において大幅な改善が示され、セマンティクスのmIoUが6.6%向上し、深度のRMSEがマルチタスクのベースラインに比べて9.4%低下した。
ScanNetでのリアルタイム単眼マッピングにおいて、M2H-MXは強力な単眼SLAMベースラインと比較して平均軌跡誤差を60.7%削減し、さらによりクリーンなメトリック・セマンティック地図を生成する。

Abstract

単眼カメラは、低コストで導入が容易であるためロボットの知覚にとって魅力的ですが、単一の画像ストリームから信頼性のあるリアルタイムな空間理解を実現することは依然として困難です。最近のマルチタスクの密な予測モデルは、ピクセルごとの深度推定や意味推定を改善していますが、これらの進歩を安定した単眼マッピングシステムへと移すことは、いまだ容易ではありません。本論文では、単眼の空間理解のためのリアルタイム・マルチタスク知覚モデルであるM2H-MXを提案します。このモデルは、軽量なデコーダにおいてマルチスケールの特徴表現を保持しつつ、レジスタゲート付きのグローバル文脈と、制御されたクロスタスク相互作用を導入します。これにより、厳しいレイテンシ制約のもとで、深度と意味の予測がお互いを強化し合えるようになります。さらに、その出力は、コンパクトな知覚からマッピングへのインターフェースを介して、修正なしの単眼SLAMパイプラインに直接統合されます。本研究では、密な予測の精度と、ループに組み込んだシステム性能の両方を評価します。NYUDv2では、M2H-MX-Lが最先端の結果を達成し、代表的なマルチタスクのベースラインに対して意味mIoUを6.6%向上させ、深度RMSEを9.4%低減します。また、ScanNetにおけるリアルタイムの単眼マッピングシステムに展開したところ、強力な単眼SLAMベースラインと比べて平均軌跡誤差を60.7%低減し、よりクリーンなメトリック意味マップを生成しました。これらの結果は、現代のマルチタスク密予測が、ロボットシステムにおけるリアルタイム単眼空間知覚のために確実に実運用できることを示しています。