RS-SSM：ビデオ意味セグメンテーションのための状態空間モデルにおける忘れられた詳細の洗練

arXiv cs.CV / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビデオ意味セグメンテーションにおける状態空間モデルの限界を扱い、固定サイズの状態表現が、ピクセルレベルの精度と時間的整合性に必要な特定の時空間の詳細を「忘れてしまう」可能性があることを指摘している。
RS-SSM（Refining Specifics State Space Model）は、状態空間の圧縮中に忘れられた特定の情報を回復し、洗練するための的を絞ったメカニズムを追加する。
RS-SSMは、状態空間内における特定情報の分布特性を抽出し整列させるために、Channel-wise Amplitude Perceptron（CwAP）を用いる。
また、学習された特定情報の分布に基づいて、忘却ゲート行列を適応的に反転し洗練することを提案する、Forgetting Gate Information Refiner（FGIR）を導入する。
4つのビデオ意味セグメンテーションのベンチマークに対する実験により、計算効率を維持しつつ最先端の結果を示し、著者らはGitHubで公開コードを提供している。

要旨: 近年、状態空間モデルは線形複雑度による状態空間圧縮を通じて、効率的な動画セグメンテーションを実現することが示されています。しかし、動画セマンティックセグメンテーション（VSS）では、セマンティックな対象のセグメンテーションにおける時間的整合性を維持するために、ピクセルレベルの時空間モデリング能力が必要です。状態空間モデルは状態空間圧縮の間に共通のセマンティック情報を保持し得る一方で、固定長の状態空間は必然的に特定の情報を忘却してしまい、その結果モデルのピクセルレベルのセグメンテーション能力が制限されます。上記の問題に対処するため、我々は動画セマンティックセグメンテーションのための「特定情報を洗練する状態空間モデル」アプローチ（RS-SSM）を提案します。RS-SSMは、忘却された時空間の細部を補完的に洗練します。具体的には、チャンネルごとの振幅パーセプトロン（CwAP）を設計し、状態空間内の特定情報の分布特性を抽出して整合させます。さらに、「忘却ゲート情報リファイナ」（FGIR）を提案し、特定情報の分布に基づいて状態空間モデルにおける忘却ゲート行列を適応的に反転し、洗練します。結果として、我々のRS-SSMは反転された忘却ゲートを活用して、状態空間圧縮中に忘却された特定情報を補完的に洗練し、そのことでモデルの時空間ピクセルレベルセグメンテーション能力を向上させます。4つのVSSベンチマークに対する大規模な実験により、我々のRS-SSMは高い計算効率を維持しつつ、最先端の性能を達成することを示しました。コードは https://github.com/zhoujiahuan1991/CVPR2026-RS-SSM で公開されています。

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Dev.to

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

RS-SSM：ビデオ意味セグメンテーションのための状態空間モデルにおける忘れられた詳細の洗練

要点

関連記事

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer