AI Navigate

AsyncMDE: 非同期空間メモリによる実時間単眼深度推定

arXiv cs.CV / 2026/3/12

💬 オピニオンModels & Research

要点

  • AsyncMDEは、背景で空間特徴を生成する基盤モデルと、記憶と現在の観測を融合して深度を推定する軽量な前景モデルとで作業を分割する、非同期深度認識システムを導入します。
  • このシステムは、補完的な融合と自己回帰的な記憶更新により、フレーム間の特徴再利用を可能にし、フレーム間での精度低下を境界付きで抑えます。
  • パラメータ数は3.83Mとコンパクトで、RTX 4090 上で237 FPSを実現し、基盤モデルとの差の精度ギャップの77%を回復しつつ、パラメータ数を従来の25分の1に削減します。さらに TensorRT 搭載の Jetson AGX Orin で161 FPS を実現し、エッジ展開の実用可能性を示します。
  • 室内静止・動的・合成極端モーションベンチマークで検証され、リフレッシュ間で穏やかに劣化し、実用的なリアルタイム性能を示します。
要約: ファウンデーションモデルベースの単眼深度推定はロボット知覚のアクティブセンサーに対する実用的な代替手段を提供しますが、その計算コストはエッジプラットフォームへの展開を妨げることが多いです。既存の手法は各フレームごとに独立して推論を行い、連続的なロボット運用における隣接視点間の膨大な計算冗長性を浪費します。本論文は AsyncMDE を提示します。AsyncMDE は、基盤モデルと、時間とともに基盤モデルの計算コストを分散させる軽量モデルからなる非同期の深度認識システムです。基盤モデルは背景で高品質な空間特徴を生成し、軽量モデルは前景で非同期に動作し、キャッシュされた記憶と現在の観測を補完的融合を通じて結合し、深度推定を出力し、記憶を自己回帰的に更新します。これにより、フレーム間の特徴再利用を可能にし、精度低下を境界付きで抑制します。わずか3.83Mパラメータで、RTX 4090 上で 237 FPS を達成し、基盤モデルとの差の精度ギャップの77%を回復しつつ、パラメータ数を従来の25分の1に削減します。検証は室内の静止・動的・合成極端モーションのベンチマークを横断して実施され、AsyncMDE はリフレッシュ間で穏やかに劣化し、TensorRT を搭載した Jetson AGX Orin で 161 FPS を達成し、リアルタイムのエッジ展開の実現可能性を明確に示しています。