要旨: 本稿では、動的シーン再構成、セマンティック理解、およびリアルタイムのストリーミング推論を統合するフィードフォワードモデルであるSLARMを提案します。SLARMは、高次のモーションモデリングにより複雑で非一様な運動を捉えます。さらに、フローの教師信号なしに、微分可能なレンダリングのみで学習します。加えて、SLARMはLSegからセマンティック特徴を蒸留し、言語整合した表現を得ます。この設計により、自然言語によるセマンティックなクエリが可能になり、セマンティクスと幾何の密な結合が、動的再構成の精度と頑健性をさらに高めます。さらにSLARMは、ウィンドウベースの因果的注意により画像列を処理し、メモリコストを蓄積することなく安定した低遅延のストリーミング推論を実現します。この統合フレームワークのもとでSLARMは、動的推定、レンダリング品質、シーンパースにおいて先端(SOTA)の結果を達成し、既存手法に比べて運動の精度を21%向上させ、再構成PSNRを1.6 dB向上させ、セグメンテーションmIoUを20%向上させます。
SLARM:動的シーン向けのストリーミングおよび言語整合型再構成モデル
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動的シーンの再構成、セマンティック理解、そしてリアルタイムのストリーミング推論を単一の枠組みに統合するためのフィードフォワードモデルSLARMを提案する。
- SLARMは、高次のモーションモデリングによって複雑で非一様な動きを扱い、明示的なフロー監督を用いず、微分可能なレンダリングのみで学習する。
- LSegから言語整合的なセマンティック表現を蒸留し、自然言語によるセマンティックなクエリを可能にするとともに、セマンティクスとジオメトリを密に結び付けることで、精度と頑健性を向上させる。
- 低遅延のストリーミングのために、SLARMはウィンドウベースの因果的注意を用いて画像系列を処理し、メモリコストの蓄積なしに安定性を維持する。
- 報告された結果では、SLARMは最先端の性能を達成しており、動作精度が21%向上、再構成PSNRが+1.6 dB、既存手法に対してセグメンテーションのmIoUが+20%となっている。
