RS-SSM:ビデオ意味セグメンテーションのための状態空間モデルにおける忘れられた詳細の洗練

arXiv cs.CV / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビデオ意味セグメンテーションにおける状態空間モデルの限界を扱い、固定サイズの状態表現が、ピクセルレベルの精度と時間的整合性に必要な特定の時空間の詳細を「忘れてしまう」可能性があることを指摘している。
  • RS-SSM(Refining Specifics State Space Model)は、状態空間の圧縮中に忘れられた特定の情報を回復し、洗練するための的を絞ったメカニズムを追加する。
  • RS-SSMは、状態空間内における特定情報の分布特性を抽出し整列させるために、Channel-wise Amplitude Perceptron(CwAP)を用いる。
  • また、学習された特定情報の分布に基づいて、忘却ゲート行列を適応的に反転し洗練することを提案する、Forgetting Gate Information Refiner(FGIR)を導入する。
  • 4つのビデオ意味セグメンテーションのベンチマークに対する実験により、計算効率を維持しつつ最先端の結果を示し、著者らはGitHubで公開コードを提供している。

要旨: 近年、状態空間モデルは線形複雑度による状態空間圧縮を通じて、効率的な動画セグメンテーションを実現することが示されています。しかし、動画セマンティックセグメンテーション(VSS)では、セマンティックな対象のセグメンテーションにおける時間的整合性を維持するために、ピクセルレベルの時空間モデリング能力が必要です。状態空間モデルは状態空間圧縮の間に共通のセマンティック情報を保持し得る一方で、固定長の状態空間は必然的に特定の情報を忘却してしまい、その結果モデルのピクセルレベルのセグメンテーション能力が制限されます。上記の問題に対処するため、我々は動画セマンティックセグメンテーションのための「特定情報を洗練する状態空間モデル」アプローチ(RS-SSM)を提案します。RS-SSMは、忘却された時空間の細部を補完的に洗練します。具体的には、チャンネルごとの振幅パーセプトロン(CwAP)を設計し、状態空間内の特定情報の分布特性を抽出して整合させます。さらに、「忘却ゲート情報リファイナ」(FGIR)を提案し、特定情報の分布に基づいて状態空間モデルにおける忘却ゲート行列を適応的に反転し、洗練します。結果として、我々のRS-SSMは反転された忘却ゲートを活用して、状態空間圧縮中に忘却された特定情報を補完的に洗練し、そのことでモデルの時空間ピクセルレベルセグメンテーション能力を向上させます。4つのVSSベンチマークに対する大規模な実験により、我々のRS-SSMは高い計算効率を維持しつつ、最先端の性能を達成することを示しました。コードは https://github.com/zhoujiahuan1991/CVPR2026-RS-SSM で公開されています。