RGBと光フローを扱うヘテロな2ストリーム枠組みと比較的融合分析による動画アクション認識

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的な2ストリーム行動認識ネットがRGBと光フローに同一のバックボーンを適用している点を問題視し、両モダリティの構造的な違いを無視すると情報の活用が損なわれ得ると主張している。
DualStreamHybridとして、RGBには事前学習済みのViT-Tiny/16、光フローには20チャネルのスタック表現に対してスクラッチ学習したMobileNetV2を用い、融合前に学習された射影層で特徴次元を揃える構成を提案している。
融合戦略として、late fusion、concatenation、cross-attention、weighted fusion、gated fusionの5手法を統一フレームワークで比較し、データセット規模によって融合の振る舞いがどう変わるかを分析している。
UCF11ではcross-attentionが98.12%のテスト精度を達成し、RGBのみのViT-Tinyベースライン（95.94%）を上回る一方、UCF50ではweighted fusionが最も良好で、ベンチマーク間での一貫性も高い。
学習された融合重みは、UCF11ではモダリティ寄与がほぼ同等（RGB 0.507、flow 0.493）であるのに対し、UCF50ではRGBがやや優勢（RGB 0.554、flow 0.446）となり、データセットの複雑さが最適な融合方針に影響することを示唆している。

Abstract

ほとんどの二ストリームの行動認識ネットワークは、RGBストリームと光フロー（オプティカルフロー）ストリームの両方に同一の畳み込みバックボーンを適用し、2つのモダリティが本質的に異なる構造特性を持つという事実を無視しています。光フローは微細な動きのパターンを捉える一方で、RGBフレームは豊かな外観とシーンの文脈を含みます——それらを同一のものとして扱うことは、この違いを捨て去ってしまいます。私たちはDualStreamHybridを提案します。これは異種二ストリーム構造であり、それぞれのストリームに入力に適したバックボーンを割り当てます。RGBフレームには事前学習済みのViT-Tiny/16を用い、積層された20チャネルの光フロー表現には、スクラッチから学習したMobileNetV2を用います。学習された射影層が、次元数の異なる2つの特徴ベクトルを共通の次元に写像し、アーキテクチャの対称性を強制することなく、2つのストリームが相互作用できるようにします。統一された枠組みの中で、レイトフュージョン、連結、クロスアテンション、重み付きフュージョン、ゲート付きフュージョンの5つの融合戦略を設計し、データセットサイズに応じて融合挙動がどのようにスケールするかを調べるために、UCF11（1,600本の動画、11クラス）およびUCF50（6,681本の動画、50クラス）で評価します。UCF11では、クロスアテンションが98.12%のテスト精度を達成し、RGBのみのViT-Tinyベースラインである95.94%を上回ります。これは、明示的なモダリティ間アテンションが、小規模で複雑性の低いデータセットで特に有効であることを示唆しています。UCF50では、重み付きフュージョンが96.86%に到達し、両方のベンチマークにまたがって最も一貫した戦略であることが示されます。学習されたストリームの重みから、興味深いパターンが見えてきます。UCF11ではモダリティの寄与がほぼ等しく（RGB: 0.507、flow: 0.493）、一方UCF50ではRGBストリームがわずかに優勢です（RGB: 0.554、flow: 0.446）——これは、より大きく、視覚的に多様な行動空間を反映しているのかもしれません。これらを総合すると、軽量なモーションストリームでも、強力な外観エンコーダを意味のある形で補完でき、最適な融合戦略はデータセットの規模に依存することが示唆されます。