EV-CLIP:視覚課題下のfew-shot動作認識におけるCLIPの効率的な視覚プロンプト適応
arXiv cs.CV / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- CLIPは言語による自然な監督を通じて視覚領域で強い汎化を示しますが、既存の動作認識向け適応手法は時間モデリングに偏り、視覚課題下で重要になる空間理解を十分に扱えていないことがあります。
- EV-CLIPは、few-shotの動画動作認識を多様なシーンや視点に対して行うための効率的な適応フレームワークで、maskプロンプト(画素を再重み付けして行動に関連する領域へ注意を誘導)とcontextプロンプト(フレーム特徴を圧縮して軽量に時系列を扱う)という2種類の視覚プロンプトを導入します。
- EV-CLIPは5つのベンチマークデータセットで評価され、ドメインシフトを分析することで、視覚的・意味的要因が動作認識に与える影響を定量化します。
- 実験結果では、EV-CLIPが既存のパラメータ効率の高い手法よりも全体的に高い性能を示し、さらに効率がバックボーンのスケールに依存しないため、計算資源が限られた現場での導入に適しています。
- 著者らは、指定されたGitHubリポジトリでEV-CLIPのコードを公開しています。




