FILT3R: ストリーミング3D再構成の潜在状態適応カルマンフィルター

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FILT3Rは、トークン空間で再帰的な状態更新を確率的状態推定として扱う、学習不要の潜在フィルタリング層を導入する。
各トークンの分散を維持し、カルマン式ゲインを計算して記憶保持と新しい観測の間を適応的にバランスする。プロセスノイズは、候補トークンのEMA正規化された時間的ドリフトからオンラインで推定される。
このアプローチは、解釈可能な更新規則を生み出し、一般的な上書きとゲーティングポリシーを特別なケースとして一般化する。ゲインは安定した領域では縮小し、実際のシーン変化が不確実性を増すときに上昇する。
ストリーミング設定における深度、姿勢、および3D再構成の長期的安定性を向上させ、簡易統合可能なプラグインとしてGitHubでコードを公開予定。

要旨: ストリーミング3D再構築は、入ってくるフレームからオンラインで更新される持続的な潜在状態を維持し、定常メモリ推論を可能にします。主要な失敗モードは状態更新規則です。過度な上書きは有用な履歴を忘れてしまい、保守的な更新は新しい証拠を追跡できず、訓練期間を超えると両方の挙動は不安定になります。これに対処するため、訓練を必要としない潜在フィルタリング層であるFILT3Rを提案します。これは再帰的状態更新をトークン空間における確率的状態推定として捉えます。FILT3Rはトークンごとの分散を維持し、カルマン型ゲインを計算して、メモリ保持と新しい観測との間を適応的にバランスさせます。フレーム間で潜在状態がどれだけ変化するかを支配するプロセスノイズは、候補トークンのEMA正規化された時系列ドリフトからオンラインで推定されます。広範な実験を用いて、FILT3Rは解釈可能でプラグイン可能な更新規則を生み出し、一般的な上書きおよびゲーティングポリシーを特殊ケースとして一般化することを示します。具体的には、安定なレジームでは不確実性が蓄積された証拠とともに収束するにつれてゲインが縮小し、真のシーン変化がプロセス不確実性を高めるときには上昇することを示しており、既存の手法と比較して深さ・姿勢・3D再構築の長期的な安定性を向上させます。コードは https://github.com/jinotter3/FILT3R で公開されます。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

FILT3R: ストリーミング3D再構成の潜在状態適応カルマンフィルター

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer