SpecPL：スペクトルの粒度を解きほぐしてプロンプト学習を行う

arXiv cs.CL / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文では、VLM（ビジョン・ランゲージモデル）のプロンプト学習におけるモダリティ非対称性を、スペクトル粒度を明示的に扱うことで解消する SpecPL を提案する。
SpecPL は凍結したVAEを用いて視覚信号を、意味を担う低周波帯と微細な高周波ディテールに分解し、さらに凍結した Visual Semantic Bank がテキスト表現を普遍的な低周波不変量へ結び付けることで過学習を抑える。
主要な学習は「Counterfactual Granule Supervision」で、高周波信号を並べ替える（反実仮想的に操作する）ことで、モデルに“視覚の粒度”と“意味の不変性”を明確に切り分けさせ、より細かな識別を可能にする。
SpecPL は、CoOp や MaPLe のようなテキスト寄りの既存ベースラインを、視覚側のガイダンスで再活性化する“ユニバーサルなプラグ&プレイ向上器”として位置づけられている。
11のベンチマークで競争力のあるSOTA性能を示し、調和平均精度 81.51% という新たな到達点を報告しており、スペクトルの分離と反実仮想的監督が安定性と汎化のトレードオフ改善に有効であることを検証している。

概要: VLMに対する既存のプロンプト学習では、モダリティ間の非対称性が見られます。具体的には、主としてテキストトークンを最適化する一方で、凍結された視覚エンコーダを全体的な抽出器として依然利用しつつ、細かな識別に不可欠なスペクトルの粒度を十分に無視しています。これを埋めるために、本研究では、Counterfactual Granule Supervision（反実仮想の粒度スーパービジョン）を通じて、プロンプト学習のためのDisentangling Spectral Granularity（スペクトル粒度の分離）を導入します（SpecPL）。SpecPLは、新しいスペクトルの観点からプロンプト学習へアプローチします。具体的には、凍結したVAEを用いて視覚信号を、意味的な低周波帯と、粒状の高周波の詳細へ分解します。凍結したVisual Semantic Bank（視覚意味バンク）は、テキスト表現を普遍的な低周波不変性に結び付け、過学習を抑制します。重要な点として、きめ細かな識別は反実仮想の粒度学習によって駆動されます。高周波信号を並べ替える（permuting）ことで、モデルに対して、視覚の粒度を意味の不変性から明示的に区別することを強制します。独自に、SpecPLはユニバーサルなプラグアンドプレイのブースターとして機能し、CoOpやMaPLeのようなテキスト指向のベースラインを、視覚側のガイダンスによって再活性化します。11のベンチマークに対する実験では、競争力のある最先端性能を示し、81.51\%の調和平均精度という新たな性能上限を達成しました。これらの結果は、反実仮想のスーパービジョンを伴うスペクトル分離が、安定性と汎化性能のトレードオフを効果的に埋めることを検証しています。コードは https://github.com/Mlrac1e/SpecPL-Prompt-Learning で公開されています。