時間的アクション検出のためのSSMを備えた効率的な空間・時間フォーカルアダプタ

arXiv cs.CV / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、非トリミング動画における時間的アクション検出を扱い、既存のCNN/Transformerアプローチが、特徴の冗長性や長い系列にわたるグローバルな依存関係モデリングの弱まりに苦戦している点を指摘している。
  • そこで、線形な長期時間モデリングと、動画アクション検出におけるより強い時間的なグローバル推論を実現するために、State Space Model(SSM)を適用する新しい枠組みを提案する。
  • 中核となる貢献は、事前学習済みの層に挿入するEfficient Spatial-Temporal Focal(ESTF)アダプタであり、時間的モデリングのための改善されたTemporal Boundary-aware SSM(TB-SSM)と、効率的な空間特徴処理を組み合わせている。
  • 複数のベンチマークにおける実験では、従来のSSMベース手法や他の構造的手法と比べて、アクションのローカライズ性能と頑健性の両方で大きな向上が示されている。
  • 本研究では、新しい統合戦略が実世界の長尺動画理解に対してスケーラビリティを改善することを検証するために、包括的な定量評価と比較分析を行っている。

Abstract

時間的な人間の行動検出は、非トリミングの動画内における行動区間を特定し、局在化することを目的とする。これは、映像理解における重要なタスクである。CNNやTransformerモデルのような先行アーキテクチャによって得られた進歩にもかかわらず、これらは長い動画系列に適用した際に、特徴の冗長性や、グローバルな依存関係モデリング能力の低下に引き続き苦戦している。これらの制約は、実世界の動画解析におけるスケーラビリティを大きく制限する。状態空間モデル(State Space Models: SSM)は、線形の長期モデリングと、頑健なグローバルな時間的推論能力を備える有望な代替手段である。時間的モデリングにおけるSSMの適用を再考し、本研究では動画の人間行動検出のための新しい枠組みを構築する。具体的には、事前学習済みの層に、効率的な空間・時間フォーカル(Efficient Spatial-Temporal Focal: ESTF)アダプタを導入する。このモジュールは、時間的特徴モデリングのために提案するTemporal Boundary-aware SSM(TB-SSM)の利点と、空間特徴を効率的に処理するための利点を統合する。複数のベンチマークにわたって包括的かつ定量的な分析を行い、提案手法を先行のSSMベース手法や他の構造的手法と比較する。広範な実験により、改善された戦略が、局在化性能と頑健性の両方を大幅に向上させることが示され、提案手法の有効性が検証される。