StreamCacheVGGT：堅牢なスコアリングとハイブリッドキャッシュ圧縮によるストリーミング視覚ジオメトリ変換

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

StreamCacheVGGTは、厳密な定常（一定）メモリ予算のもとでストリーミング動画から高密度3Dジオメトリを復元するための学習不要フレームワークである。
同手法は、脆い単一層スコアリングに代えて、Cross-Layer Consistency-Enhanced Scoring（CLCES）によりTransformer階層をまたいでトークン重要度の推移を追跡し、活性化ノイズを抑える。
単なるエビクション（追い出し）ではなく、Hybrid Cache Compression（HCC）により三段階のトリアージ戦略を導入し、保持するアンカーに対して近傍探索（キー・ベクトル空間上）で適度に重要なトークンを統合する。
5つのベンチマーク（7-Scenes、NRGBD、ETH3D、Bonn、KITTI）で評価した結果、定数コスト制約を厳守しつつ復元精度と長期安定性の双方で新たな最先端（SOTA）を達成した。

概要: 連続する動画ストリームから高密度な3Dジオメトリを復元するには、一定のメモリ予算のもとで安定した推論が必要です。既存の $O(1)$ フレームワークは主に「純粋なエビクション（pure eviction）」というパラダイムに依存しており、二値のトークン削除や、局所的な単一層スコアリングによる評価ノイズのために、大きな情報破壊が生じます。これらのボトルネックに対処するため、我々は StreamCacheVGGT を提案します。これは学習不要のフレームワークであり、キャッシュ管理を2つの相乗的モジュールによって再構成します：Cross-Layer Consistency-Enhanced Scoring（CLCES）と Hybrid Cache Compression（HCC）です。CLCES は、トランスフォーマ階層全体にわたってトークンの重要度の軌跡を追跡し、順序統計に基づく解析を用いて持続する幾何学的な顕著性を特定することで、活性ノイズを軽減します。これらの頑健なスコアを活用することで、HCC は単なるエビクションを超え、キー-ベクトルのマニフォールド上で最近傍割り当てを行いながら、適度に重要なトークンを保持されたアンカーへ統合する3段階のトリアージ戦略を導入します。この手法により、そうであれば失われてしまう重要な幾何学的コンテキストが維持されます。5つのベンチマーク（7-Scenes、NRGBD、ETH3D、Bonn、KITTI）での大規模な評価により、StreamCacheVGGT が新たな最先端の状態を確立し、再構成精度と長期的な安定性をより高い水準で実現しつつ、一定コストの制約を厳密に守ることが示されています。