AsyncMDE: 非同期空間メモリによる実時間単眼深度推定

arXiv cs.CV / 2026/3/12

💬 オピニオンModels & Research

共有:

要点

AsyncMDEは、背景で空間特徴を生成する基盤モデルと、記憶と現在の観測を融合して深度を推定する軽量な前景モデルとで作業を分割する、非同期深度認識システムを導入します。
このシステムは、補完的な融合と自己回帰的な記憶更新により、フレーム間の特徴再利用を可能にし、フレーム間での精度低下を境界付きで抑えます。
パラメータ数は3.83Mとコンパクトで、RTX 4090 上で237 FPSを実現し、基盤モデルとの差の精度ギャップの77%を回復しつつ、パラメータ数を従来の25分の1に削減します。さらに TensorRT 搭載の Jetson AGX Orin で161 FPS を実現し、エッジ展開の実用可能性を示します。
室内静止・動的・合成極端モーションベンチマークで検証され、リフレッシュ間で穏やかに劣化し、実用的なリアルタイム性能を示します。

要約: ファウンデーションモデルベースの単眼深度推定はロボット知覚のアクティブセンサーに対する実用的な代替手段を提供しますが、その計算コストはエッジプラットフォームへの展開を妨げることが多いです。既存の手法は各フレームごとに独立して推論を行い、連続的なロボット運用における隣接視点間の膨大な計算冗長性を浪費します。本論文は AsyncMDE を提示します。AsyncMDE は、基盤モデルと、時間とともに基盤モデルの計算コストを分散させる軽量モデルからなる非同期の深度認識システムです。基盤モデルは背景で高品質な空間特徴を生成し、軽量モデルは前景で非同期に動作し、キャッシュされた記憶と現在の観測を補完的融合を通じて結合し、深度推定を出力し、記憶を自己回帰的に更新します。これにより、フレーム間の特徴再利用を可能にし、精度低下を境界付きで抑制します。わずか3.83Mパラメータで、RTX 4090 上で 237 FPS を達成し、基盤モデルとの差の精度ギャップの77%を回復しつつ、パラメータ数を従来の25分の1に削減します。検証は室内の静止・動的・合成極端モーションのベンチマークを横断して実施され、AsyncMDE はリフレッシュ間で穏やかに劣化し、TensorRT を搭載した Jetson AGX Orin で 161 FPS を達成し、リアルタイムのエッジ展開の実現可能性を明確に示しています。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

AsyncMDE: 非同期空間メモリによる実時間単眼深度推定

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer