PKS^4:効率的なビデオ理解のための並列キネマティック選択的状態空間スキャナ

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、空間意味を保つ標準的な2Dビジョンバックボーンを維持しつつ、高コストな時間的アテンションを線形計算量の時間スキャンに置き換えることで、ビデオ理解を効率化するPKS^4を提案する。
  • PKS^4は、プラグアンドプレイ可能なPKS^4モジュールを導入し、フレーム間の相関と差分から局所的な変位や運動境界などの運動に関する事前情報(キネマティック・プライオリ)を抽出するKinematic Prior Encoderを用いる。
  • このキネマティック・プライオリにより、線形計算量の状態空間モデル(SSM)が、基礎となるキネマティック状態の追跡に有効なように、各時間ステップで更新速度や読み書き戦略を適応的に調整する。
  • 時間方向にはグローバルスキャンではなく、空間各位置ごとに並列スキャナを配置することで、空間構造を維持しつつ、アダプタを深く挿入する手法に比べて活性メモリのオーバーヘッドを抑える。
  • 行動認識ベンチマークでの実験では最先端性能が報告され、約20エポックで収束し、純粋なビデオSSMに対して学習計算量を約10倍低減できるとしている。