Flash-Mono:フィードフォワード加速ガウススプラッティングによる単眼SLAM

arXiv cs.RO / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Flash-Monoは、単眼3DガウススプラッティングSLAMの主要な弱点――学習をゼロから行う最適化の遅さ、幾何の不正確さ、そしてマルチビューにおけるスケールの一貫性の欠如――に対し、多フレームの文脈から直接ガウス属性を予測するフィードフォワード方式へと転換することで解決を図ります。
  • 本システムは、クロスアテンションを備えた再帰型フィードフォワードフロントエンドを用いて隠れ状態を構築し、隠れ状態をもとにカメラ姿勢と1ピクセルごとのガウス特性を同時に予測します。さらに、効率的な再構成のために2Dガウススプラッティングのマッピングバックエンドを採用しています。
  • ドリフトを抑え、グローバルな一貫性を高めるために、Flash-Monoは隠れ状態をコンパクトなサブマップ記述子として活用し、効率的なループクロージャを実現するとともに、Sim(3)のグローバル最適化を行います。
  • 幾何学的な忠実性を向上させるために、従来の3Dガウス楕円体の代わりに2Dガウスサーフェルを用い、最先端のトラッキングおよびマッピング性能を報告しています。
  • この手法は、最適化ベースのGS-SLAMに対して10倍の高速化を主張しつつ、高品質なレンダリングを維持することで、リアルタイムの身体化された知覚・再構成といったユースケースを狙っています。

要旨: 単眼3D Gaussian Splatting SLAMは、時間効率、幾何学的精度、そしてマルチビュー整合性において重大な制約を受けています。これらの問題は、時間のかかる extit{Train-from-Scratch}最適化と、単一フレームの幾何学的事前知識に由来してフレーム間のスケール整合性が欠けていることから生じます。これらの課題に対処するには、複数フレームの文脈を活用してガウス属性を直接予測するフィードフォワードのパラダイムが重要である、と我々は主張します。本稿では、3つの主要モジュールから成るシステムFlash-Monoを提案します:フィードフォワード予測フロントエンド、2D Gaussian Splattingのマッピングバックエンド、そして効率的な隠れ状態ベースのループクロージャモジュールです。反復(recurrent)のフィードフォワードフロントエンドモデルを学習し、クロスアテンションによって複数フレームの視覚的特徴を段階的に隠れ状態へ集約しつつ、カメラ姿勢と画素ごとのガウス特性を共同で予測します。ガウス属性を直接予測することで、最適化ベースのGS-SLAMで必要とされるフレームごとの負担の大きい最適化を回避し、高品質なレンダリングを維持しながら extbf{10x}の高速化を達成します。我々の反復アーキテクチャの力は、効率的な予測にとどまりません。隠れ状態はコンパクトなサブマップ記述子として機能し、ループクロージャと、ドリフトという長年の課題を軽減するためのグローバル3mathrm{Sim}(3)最適化を効率的に行えるようにします。幾何学的な忠実性を高めるために、従来の3Dガウス楕円体の代わりに2Dガウスサーフェルを用います。大規模な実験により、Flash-Monoが追跡およびマッピングの両方の品質において最先端の性能を達成することを示し、身体化された認識やリアルタイム再構成のアプリケーションにおける可能性を示しています。プロジェクトページ: https://victkk.github.io/flash-mono。