EV-CLIP:視覚課題下のfew-shot動作認識におけるCLIPの効率的な視覚プロンプト適応

arXiv cs.CV / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • CLIPは言語による自然な監督を通じて視覚領域で強い汎化を示しますが、既存の動作認識向け適応手法は時間モデリングに偏り、視覚課題下で重要になる空間理解を十分に扱えていないことがあります。
  • EV-CLIPは、few-shotの動画動作認識を多様なシーンや視点に対して行うための効率的な適応フレームワークで、maskプロンプト(画素を再重み付けして行動に関連する領域へ注意を誘導)とcontextプロンプト(フレーム特徴を圧縮して軽量に時系列を扱う)という2種類の視覚プロンプトを導入します。
  • EV-CLIPは5つのベンチマークデータセットで評価され、ドメインシフトを分析することで、視覚的・意味的要因が動作認識に与える影響を定量化します。
  • 実験結果では、EV-CLIPが既存のパラメータ効率の高い手法よりも全体的に高い性能を示し、さらに効率がバックボーンのスケールに依存しないため、計算資源が限られた現場での導入に適しています。
  • 著者らは、指定されたGitHubリポジトリでEV-CLIPのコードを公開しています。

Abstract

CLIPは、自然言語による教師あり学習を通じて、動画の行動認識においても視覚領域で強力な汎化性能を示してきました。しかし、行動認識のためにCLIPを適応させる既存手法の多くは、主に時間的モデリングに焦点を当てており、空間認識を見落としがちです。現実の状況では、低照度環境や片眼視点(エゴセントリック・ビュー)といった視覚上の課題によって、効果的な時間的推論のために不可欠な空間理解が大きく損なわれることがあります。この制約に対処するために、さまざまなシーンや視点にまたがる少数ショットの動画行動認識のための効率的な適応フレームワークである Efficient Visual Prompting for CLIP(EV-CLIP)を提案します。EV-CLIPは2種類の視覚プロンプトを導入します。すなわち、マスクプロンプトは、画素に重み付けを行うことで、行動に関連する領域へのモデルの注意を導きます。また、コンテキストプロンプトは、フレームごとの特徴をコンパクトな表現に圧縮することで、軽量な時間的モデリングを実行します。包括的な評価のために、5つのベンチマークデータセットを構築し、領域のシフトを分析して、行動認識に対する多様な視覚的・意味的要因の影響を定量化します。実験結果は、EV-CLIPが全体的な性能において既存のパラメータ効率の高い手法を上回ることを示しています。さらに、その効率はバックボーンのスケールに依存しないため、現実世界の資源に制約のある環境での展開に適しています。コードは https://github.com/AI-CV-Lab/EV-CLIP で公開されています。