愛して、私のラベルを愛して:視覚インコンテキスト学習におけるプロンプト検索でのラベルの役割を再考する

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 視覚インコンテキスト学習(VICL)の性能は、適切な例示(デモンストレーション)プロンプトを選択できるかに大きく依存しており、既存のプロンプト検索手法はしばしば、プロンプトのラベルがクエリのラベルと一致するかどうかを無視しています。
  • 本研究では、視覚的には類似しているもののラベルが一致しないプロンプトはVICLの結果を悪化させうる一方で、クエリとプロンプト間のラベル整合性が強いほど良い結果と相関することを見出しています。
  • これに対処するため、著者らはLaPR(Label-aware Prompt Retrieval)を提案します。これは、画像とラベルの共同表現を構築することで、プロンプト選択の際にラベルの手がかりを明示的に取り込む手法です。
  • LaPRはさらに、テスト時にクエリラベルが欠落している場合に対応するため、クエリに適応したルーティングを備えた混合専門家(mixture-of-experts)機構を導入します。VICLの性能に導かれた損失と、ラベルに導かれた対照(コントラスト)損失の両方を用いて、専門家とルータを学習します。
  • インコンテキストセグメンテーション、検出、色彩化にまたがる実験において、先行手法に対して一貫した改善が示され、特徴抽出器の違いおよびクロスフォールド設定に対する良好な汎化も確認されています。コードは公開されています。