Second-Order Statistics を介した視覚言語モデルのための Gram-Anchored Prompt Learning

arXiv cs.CV / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のパラメータ効率的なプロンプト学習が主に「一次(first-order)な空間特徴の整合」に依存している点を問題視し、ドメインシフトや局所ノイズに弱いと指摘しています。
  • 提案手法 Gram-Anchored Prompt Learning (GAPL) は、一次の空間的相互作用に加えて Gram 行列による「二次(second-order)統計ストリーム」を導入し、言語表現の適応を二次統計の事前(prior)にアンカーします。
  • ローカルなセマンティック整合とグローバルな構造的一貫性を同時に狙うことで、統計分布の変化に対してプロンプトが動的に適応できるとしています。
  • 広範な実験により、二次特徴が有効であること、かつ複数ベンチマークで GAPL が良好な性能を示すことが報告されています。

Abstract

パラメータ効率の高いプロンプト学習は、VLM(Vision-Language Models:視覚言語モデル)を下流タスクに適応させるための事実上の標準となっています。既存の手法の多くは、テキストプロンプトを一次(first-order)の視覚特徴(すなわち、空間特徴マップ)に整合させることに主に焦点を当てています。微細な意味識別には有効である一方で、一次情報のみに依存することは、堅牢な適応には不十分だと我々は主張します。というのも、これらの空間的に絡み合った特徴は、ドメインシフトや局所的なノイズに対して非常に脆弱だからです。本研究では、第二次統計量によってVLM向けの extbf{Gram-Anchored Prompt Learning(GAPL:グラムアンカー付きプロンプト学習)} を提案します。この枠組みは、局所的な意味の整合と、グローバルな構造的一貫性とを相乗的に組み合わせます。方法論として、 extbf{Gram行列} を介した追加の第二次統計ストリームを導入し、標準的な一次の空間的相互作用を補強します。これらの第二次の事前情報にプロンプトをアンカーすることで、提案手法は、多様なドメイン間での統計分布のシフトに応じて言語表現が動的に適応できるようになります。大規模な実験により、第二次の特徴の有効性が示されており、さまざまなベンチマークにおいてGAPLが説得力のある性能を達成することが確認されています。