AI Navigate

PromptHub: 局所性を意識した融合・集約・整合によるマルチプロンプト視覚文脈学習の強化

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PromptHubは局所性を意識した融合・集約・整合を用い、パッチ単位の融合の限界を克服してマルチプロンプト視覚文脈学習を強化します。
  • 空間的事前情報と相補的な訓練目的を活用し、データ拡張を通じて監督を強化し、学習を導きます。
  • 三つの基本的な視覚タスクに関する広範な実験を通じて性能が向上することを示すとともに、普遍性・転移性、および分布外条件下や多様な検索設定における頑健性の証拠を示します。
  • 提供された GitHub リンクでコードを公開しており、パッチベースの手法を超えた実用性を示しています。

要旨: Visual In-Context Learning (VICL) は、ピクセルデモンストレーションを模倣して視覚タスクを完遂することを目指します。最近の研究は、さまざまなデモンストレーションの利点を組み合わせるプロンプト融合を提唱し、VICLを拡張する有望な道を示しています。残念ながら、パッチ単位の融合フレームワークとモデルに依存しない教師信号は、有益な手掛かりの活用を妨げ、性能向上を制限しています。この欠点を克服するため、私たちは局所性を意識した融合、集中と整合を通じてマルチプロンプティングを全体的に強化するフレームワーク PromptHub を導入します。PromptHub は空間的事前情報を活用してより豊かな文脈情報を捉え、補完的な集中、整合、および予測目標を用いて相互に訓練を導くようにし、さらに監督を強化するためにデータ拡張を取り入れます。3つの基本的な視覚タスクに関する広範な実験は、PromptHub の優位性を示しています。さらに、アウト・オブ・ディストリビューション設定やさまざまな検索シナリオにおいて、普遍性、転移性、および堅牢性を検証します。本研究は、プロンプト融合における信頼性の高い局所性を意識したパラダイムを確立し、従来のパッチ単位のアプローチを超えるものです。コードは https://github.com/luotc-why/ICLR26-PromptHub で公開されています。