RGBと光フローを扱うヘテロな2ストリーム枠組みと比較的融合分析による動画アクション認識
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的な2ストリーム行動認識ネットがRGBと光フローに同一のバックボーンを適用している点を問題視し、両モダリティの構造的な違いを無視すると情報の活用が損なわれ得ると主張している。
- DualStreamHybridとして、RGBには事前学習済みのViT-Tiny/16、光フローには20チャネルのスタック表現に対してスクラッチ学習したMobileNetV2を用い、融合前に学習された射影層で特徴次元を揃える構成を提案している。
- 融合戦略として、late fusion、concatenation、cross-attention、weighted fusion、gated fusionの5手法を統一フレームワークで比較し、データセット規模によって融合の振る舞いがどう変わるかを分析している。
- UCF11ではcross-attentionが98.12%のテスト精度を達成し、RGBのみのViT-Tinyベースライン(95.94%)を上回る一方、UCF50ではweighted fusionが最も良好で、ベンチマーク間での一貫性も高い。
- 学習された融合重みは、UCF11ではモダリティ寄与がほぼ同等(RGB 0.507、flow 0.493)であるのに対し、UCF50ではRGBがやや優勢(RGB 0.554、flow 0.446)となり、データセットの複雑さが最適な融合方針に影響することを示唆している。




