M2H-MX:リアルタイム単眼空間理解のためのマルチタスク・デンス視覚知覚
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボティクスに向けて単一カメラの映像ストリームから単眼の空間理解を向上させることを目的とした、リアルタイム対応のマルチタスク・デンス視覚知覚モデル「M2H-MX」を提案する。
- これは、マルチスケールの特徴保持に、register-gatedなグローバル文脈、そして軽量なデコーダ内で慎重に制御されたタスク間相互作用を組み合わせることで、レイテンシ制約下でも高速な深度および意味(セマンティクス)予測を可能にする。
- 深度と意味の出力は、変更を加えない単眼SLAMパイプラインに対して、コンパクトな知覚からマッピングへのインターフェースを通じて直接統合され、安定したin-the-loop性能を目指す。
- 実験ではNYUDv2において大幅な改善が示され、セマンティクスのmIoUが6.6%向上し、深度のRMSEがマルチタスクのベースラインに比べて9.4%低下した。
- ScanNetでのリアルタイム単眼マッピングにおいて、M2H-MXは強力な単眼SLAMベースラインと比較して平均軌跡誤差を60.7%削減し、さらによりクリーンなメトリック・セマンティック地図を生成する。




