要旨: ストリーミング3D再構成は、カメラの姿勢や点群などの3D情報を動画ストリームから復元することを目的としており、そのためには、幾何学的な正確さ、時間的な整合性、および計算効率が必要となる。Simultaneous Localization and Mapping(SLAM)の原理に触発されて、私たちは、幾何学的コンテキスト変換器(GCT)アーキテクチャに基づく、ストリーミングデータからシーンを再構成するためのフィードフォワード型3D基盤モデルであるLingBot-Mapを提案する。LingBot-Mapの決定的な特徴は、慎重に設計された注意(アテンション)機構にある。この機構は、座標の基準付け、密な幾何学的手がかり、そして長距離のドリフト補正をそれぞれ扱うために、アンカーコンテキスト、ポーズ参照ウィンドウ、ならびに軌跡メモリを統合する。これにより、ストリーミング状態をコンパクトに保ちつつ、豊かな幾何学的コンテキストを維持できる。その結果、10,000フレームを超える長いシーケンスにわたって、518×378解像度の入力に対し約20 FPSの安定した効率的推論が可能となる。さまざまなベンチマークに対する大規模な評価の結果、提案手法は、既存のストリーミング手法および反復最適化ベースの手法のいずれとも比較して優れた性能を達成することが示された。
ストリーミング3D再構成のための幾何学的コンテキスト・トランスフォーマ
arXiv cs.CV / 2026/4/16
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、SLAMの原理に着想を得た幾何学的コンテキスト・トランスフォーマ(GCT)アーキテクチャを用いる、ストリーミング3D再構成のためのフィードフォワード型3D基盤モデル「LingBot-Map」を提案する。
- 注意機構は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを組み合わせることで、座標の基準付けを改善し、密な幾何学的手がかりを活用し、長距離のドリフトを補正する。
- 本手法は、ストリーミング時の状態をコンパクトに保ちつつ、安定した効率的推論のために豊富な幾何学的情報を維持することを目的としている。
- 入力解像度518×378に対して約20 FPSの性能を目標としており、10,000フレームを超える長いシーケンスにも対応する。
- 複数のベンチマークでの実験により、本アプローチは従来のストリーミング手法および反復的な最適化ベース手法よりも優れた性能を示す。


