愛して、私のラベルを愛して：視覚インコンテキスト学習におけるプロンプト検索でのラベルの役割を再考する

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

視覚インコンテキスト学習（VICL）の性能は、適切な例示（デモンストレーション）プロンプトを選択できるかに大きく依存しており、既存のプロンプト検索手法はしばしば、プロンプトのラベルがクエリのラベルと一致するかどうかを無視しています。
本研究では、視覚的には類似しているもののラベルが一致しないプロンプトはVICLの結果を悪化させうる一方で、クエリとプロンプト間のラベル整合性が強いほど良い結果と相関することを見出しています。
これに対処するため、著者らはLaPR（Label-aware Prompt Retrieval）を提案します。これは、画像とラベルの共同表現を構築することで、プロンプト選択の際にラベルの手がかりを明示的に取り込む手法です。
LaPRはさらに、テスト時にクエリラベルが欠落している場合に対応するため、クエリに適応したルーティングを備えた混合専門家（mixture-of-experts）機構を導入します。VICLの性能に導かれた損失と、ラベルに導かれた対照（コントラスト）損失の両方を用いて、専門家とルータを学習します。
インコンテキストセグメンテーション、検出、色彩化にまたがる実験において、先行手法に対して一貫した改善が示され、特徴抽出器の違いおよびクロスフォールド設定に対する良好な汎化も確認されています。コードは公開されています。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

愛して、私のラベルを愛して：視覚インコンテキスト学習におけるプロンプト検索でのラベルの役割を再考する

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化