視覚プロンプトの再考:Activation Prompts(活性化プロンプト)の力

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「activation prompts(AP)」を提案し、VP(visual prompting)を拡張して入力に対してだけでなく、中間の活性化マップに対してユニバーサルな摂動を適用する。
  • その結果として、VPの性能と効率は本質的に制約されていることを理論および実験を通じて主張・実証し、摂動をモデルのどこに適用するかによってAPがVPを上回り得ることを示す。
  • APは、CNNやビジョントランスフォーマにおける正規化チューニングとの間に密接な関係があることを示すが、プロンプトが最も効果的に働く層については、モデルごとに異なる嗜好が存在する。
  • 29のデータセットおよび複数のアーキテクチャにわたる大規模な実験により、APはVPおよびパラメータ効率の高い微調整のベースラインよりも高い精度と優れた効率を達成し、時間・パラメータ数・メモリ・スループットの改善を含むことが示される。

Abstract

視覚プロンプト(VP)は、下流タスクへの適応のために事前学習済みの視覚モデルを再利用する方法として、人気のある手法として登場してきた。従来のモデル微調整手法とは異なり、VPはモデルパラメータを変更するのではなく、タスク固有の微調整を促進するために、入力データへ普遍的な摂動を直接導入する。しかし、VPと従来の微調整手法の間には明確な性能ギャップが存在し、理論と実践の両面で、現状の性能ギャップを縮小するために入力レベルのVPを理解し発展させるという未踏の領域が示唆されている。そこで本研究では、activation prompt(AP)と呼ぶ一般化された概念を導入する。これは、入力レベルのVPの範囲を拡張し、モデルの中間層にある活性マップに対して普遍的な摂動を適用できるようにすることである。APを用いてVPの問題を改めて検討し、分析ツールとして活用することにより、性能と効率の両面でVPの本質的な限界を明らかにし、入力レベルのプロンプトが、モデル依存の層嗜好を示すAPと比べて有効性に欠ける理由を示す。APは、畳み込みニューラルネットワークおよび視覚トランスフォーマにおける正規化チューニングと密接に関連していることを示すが、各モデル種はプロンプトに対して異なる層嗜好を持つ。また、層間におけるグローバル特徴を解析することで、その嗜好が生じる理由を理論的に解明する。さらに、29のデータセットおよびさまざまなモデルアーキテクチャにわたる大規模な実験を通じて、APの包括的な性能分析を提示し、VPおよびパラメータ効率の高い微調整のベースラインと比較する。結果として、時間、パラメータ数、メモリ使用量、スループットといった要因を考慮した場合でも、APが精度と効率の両面で優れていることを示す。