要旨: ストリーミング3D知覚は、ロボティクスや拡張現実に適しています。そこでは、長い視覚ストリームを効率的かつ一貫して処理する必要があります。近年の再帰型モデルは、固定サイズの状態を維持し、線形時間で推論できる点で有望な解決策を提供していますが、圧縮された潜在メモリの容量が限られているため、長い系列にわたってドリフトが蓄積し、時間的な忘却が生じることがしばしばあります。本研究では、カメラ追跡と幾何学的マッピングを分離することで、長い系列における時間的整合性を改善する、ハイブリッドメモリ設計を備えたストリーミング3D再構成モデル Mem3R を提案します。カメラ追跡において Mem3R は、Test-Time Training によって更新される軽量な Multi-Layer Perceptron として実装された暗黙の高速重みメモリを用います。幾何学的マッピングにおいて Mem3R は、明示的なトークンベースの固定サイズ状態を維持します。この設計は CUT3R と比較して、長系列での性能を大幅に改善するだけでなく、モデルサイズを 793M から 644M パラメータへと削減します。Mem3R は、CUT3R 向けに開発された既存の改良プラグ・アンド・プレイの状態更新戦略をサポートします。具体的には、これを TTT3R と組み合わせることで、500〜1000 フレームの系列において、基礎実装に対する Absolute Trajectory Error を最大 39% 減少させます。得られた改善は、ビデオ深度推定や3D再構成などの他の下流タスクにも拡張され、GPUメモリ使用量を一定に保ちつつ、同等の推論スループットを維持します。プロジェクトページ: https://lck666666.github.io/Mem3R/
Mem3R:テスト時トレーニングによるハイブリッドメモリを用いたストリーミング3D再構成
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Mem3Rは、ロボティクスや拡張現実における長時間の映像シーケンス向けに設計されたストリーミング3D再構成モデルであり、反復型/状態圧縮型アプローチにありがちなドリフトや時間的な忘却の低減を目指している。
- それは、カメラ追跡と幾何学的マッピングを分離するハイブリッドメモリアーキテクチャを用いる:カメラ追跡は、テスト時トレーニングによって更新される暗黙の高速ウェイトメモリに依存し、マッピングは、固定サイズのトークン状態を用いる明示的な方式を採用する。
- CUT3Rと比較して、Mem3Rは長シーケンス性能を向上させ、パラメータ数を793Mから644Mに削減しつつ、CUT3Rと互換なプラグアンドプレイの状態更新戦略をサポートする。
- TTT3Rと統合した場合、500〜1000フレームのシーケンスにおいて絶対軌道誤差(Absolute Trajectory Error)を最大39%削減し、同程度の推論スループットを維持しながらGPUメモリ使用量を一定に保つ。
- 報告されている改善は、動画の深度推定や3D再構成といった下流タスクにも転移する。



