プロンプト・コンディショニングとヘッド選択によるLVLMにおけるFew-Shot能力の解放
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデル(LVLM)が多くのゼロショットの生成タスクでは良好に機能する一方で、CLIPベースの手法と比べて、CLIPで事前学習された視覚エンコーダを使用しているにもかかわらず画像分類では性能が低いのはなぜかを調査する。
- CLIPの「クラス名とのマッチングによる偏り」は、共同の視覚—テキスト推論とは異なることを論じ、推論時にプロンプト・コンディショニングによってLVLMがクラス識別性を高められることを示す。
- 著者らは、訓練不要の手法としてHead Ensemble Classifiers(HEC)を提案し、視覚コンポーネントとテキストコンポーネントの両方から、最も識別的な注意(attention)ヘッドを選択してアンサンブルする。
- HECはガウス判別分析(Gaussian Discriminant Analysis)に着想を得ており、CLIPベースとLVLMベースの分類手法の性能差を埋めるよう設計されている。
- 実験では、12のデータセットにわたるゼロショットおよびfew-shotの画像分類において、最先端の結果が報告されている。