AI Navigate

FILT3R: ストリーミング3D再構成の潜在状態適応カルマンフィルター

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • FILT3Rは、トークン空間で再帰的な状態更新を確率的状態推定として扱う、学習不要の潜在フィルタリング層を導入する。
  • 各トークンの分散を維持し、カルマン式ゲインを計算して記憶保持と新しい観測の間を適応的にバランスする。プロセスノイズは、候補トークンのEMA正規化された時間的ドリフトからオンラインで推定される。
  • このアプローチは、解釈可能な更新規則を生み出し、一般的な上書きとゲーティングポリシーを特別なケースとして一般化する。ゲインは安定した領域では縮小し、実際のシーン変化が不確実性を増すときに上昇する。
  • ストリーミング設定における深度、姿勢、および3D再構成の長期的安定性を向上させ、簡易統合可能なプラグインとしてGitHubでコードを公開予定。

要旨: ストリーミング3D再構築は、入ってくるフレームからオンラインで更新される持続的な潜在状態を維持し、定常メモリ推論を可能にします。主要な失敗モードは状態更新規則です。過度な上書きは有用な履歴を忘れてしまい、保守的な更新は新しい証拠を追跡できず、訓練期間を超えると両方の挙動は不安定になります。これに対処するため、訓練を必要としない潜在フィルタリング層であるFILT3Rを提案します。これは再帰的状態更新をトークン空間における確率的状態推定として捉えます。FILT3Rはトークンごとの分散を維持し、カルマン型ゲインを計算して、メモリ保持と新しい観測との間を適応的にバランスさせます。フレーム間で潜在状態がどれだけ変化するかを支配するプロセスノイズは、候補トークンのEMA正規化された時系列ドリフトからオンラインで推定されます。広範な実験を用いて、FILT3Rは解釈可能でプラグイン可能な更新規則を生み出し、一般的な上書きおよびゲーティングポリシーを特殊ケースとして一般化することを示します。具体的には、安定なレジームでは不確実性が蓄積された証拠とともに収束するにつれてゲインが縮小し、真のシーン変化がプロセス不確実性を高めるときには上昇することを示しており、既存の手法と比較して深さ・姿勢・3D再構築の長期的な安定性を向上させます。コードは https://github.com/jinotter3/FILT3R で公開されます。