Abstract
マルチモーダル大規模言語モデル(MLLMs)は、少数ショット行動認識(FSAR)の分野を大きく前進させてきました。しかし、この領域における予備的な探索は主として、キャプションを生成して特徴→キャプション→特徴というサブ最適なパイプラインを形成することに焦点を当て、さらに、メトリック学習を視覚空間のみにおいて行うことに留まっています。本論文では、FSAR-LLaVA を提案します。これは、MLLM(Video-LLaVA など)をマルチモーダル知識ベースとして用いて FSAR を直接強化するための、初のエンドツーエンド手法です。まず、特徴レベルにおいて、MLLM のマルチモーダルデコーダを活用して、時空間的かつ意味的に豊かに強化された表現を抽出し、その後、提案する Multimodal Feature-Enhanced Module によりそれらを分離し、視覚特徴とテキスト特徴という別個のものに強化することで、FSAR においてそれぞれが持つ意味知識を最大限に活用できるようにします。次に、MLLM の汎用性を活かして、入力プロンプトを多様な状況に柔軟に適応させるよう設計し、それらの整合した出力を用いて、設計した Composite Task-Oriented Prototype Construction を駆動することで、メタトレイン集合とメタテスト集合の分布ギャップを効果的に橋渡しします。最後に、マルチモーダル特徴がメトリック学習を共同で導けるようにするため、トレーニング不要の Multimodal Prototype Matching Metric を導入します。これは、最も決定的な手がかりを適応的に選択し、MLLM が生成した分離済み特徴表現を効率的に活用します。広範な実験により、最小限の学習可能パラメータで、さまざまなタスクにおいて優れた性能が示されます。