時間的アクション検出のためのSSMを備えた効率的な空間・時間フォーカルアダプタ
arXiv cs.CV / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、非トリミング動画における時間的アクション検出を扱い、既存のCNN/Transformerアプローチが、特徴の冗長性や長い系列にわたるグローバルな依存関係モデリングの弱まりに苦戦している点を指摘している。
- そこで、線形な長期時間モデリングと、動画アクション検出におけるより強い時間的なグローバル推論を実現するために、State Space Model(SSM)を適用する新しい枠組みを提案する。
- 中核となる貢献は、事前学習済みの層に挿入するEfficient Spatial-Temporal Focal(ESTF)アダプタであり、時間的モデリングのための改善されたTemporal Boundary-aware SSM(TB-SSM)と、効率的な空間特徴処理を組み合わせている。
- 複数のベンチマークにおける実験では、従来のSSMベース手法や他の構造的手法と比べて、アクションのローカライズ性能と頑健性の両方で大きな向上が示されている。
- 本研究では、新しい統合戦略が実世界の長尺動画理解に対してスケーラビリティを改善することを検証するために、包括的な定量評価と比較分析を行っている。
