幾何学的ユーティリティスコアリングによるトランスフォーマベース単眼SLAMの高速化

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、幾何学的基盤モデル(GFM)に基づく単眼SLAMにおける非効率性を対象としている。具体的には、システムがフレームの有用性を判断する前に、依然としてコストの高い密な幾何学的デコーディングを実行している点が問題となっている。
  • 重いGFMの特徴抽出とマッチングを行う前に、フレームの幾何学的ユーティリティスコアを予測する軽量なフィードフォワード型のフレームゲーティングネットワーク「LeanGate」を提案する。
  • LeanGateは、早期棄却によって冗長なフレームの90%以上をバイパスすることを目的にした、予測型のプラグアンドプレイ・モジュールとして設計されている。
  • 標準的なSLAMベンチマークでの実験では、トラッキングにおけるFLOPsが85%以上削減され、エンドツーエンドのスループットが約5倍に向上したと報告されている。
  • この手法は、密なベースライン手法と比べてトラッキングおよびマッピング精度を維持できるとされており、速度向上が大きな性能コストを伴わないことを示唆している。

要旨: 幾何学的基盤モデル(Geometric Foundation Models: GFM)は、キャリブレーション不要の堅牢な3D事前情報を提供することで、単眼SLAMを最近大きく前進させてきました。しかし、これらのモデルを高密度な動画ストリーム上に展開すると、重大な計算上の冗長性が生じます。現在のGFMベースのSLAMシステムは一般に事後的なキーフレーム選択に依存しています。そのため、フレームに新規の幾何が含まれるかどうかを判断するだけのために、高価な高密度な幾何のデコードを行う必要があり、却下が遅れ、計算が無駄になってしまいます。この非効率を緩和するために、我々は軽量なフィードフォワード型フレームゲーティングネットワークであるLeanGateを提案します。LeanGateは、重いGFMの特徴抽出およびマッチング処理の前に、フレームのマッピング上の価値を評価するための幾何学的有用性スコアを予測します。予測に基づくプラグアンドプレイ型のモジュールとして、我々の手法は冗長なフレームの90%以上をスキップします。標準的なSLAMベンチマークでの評価により、LeanGateは追跡のFLOPsを85%以上削減し、エンドツーエンドのスループットを5倍に向上させることが示されます。さらに、密な基線の追跡およびマッピング精度を維持します。