ラベルノイズに対するビジョン・言語モデルのプロンプトチューニング:Intrinsic Gradient Suppression

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CLIPのような対比型ビジョン・言語モデルはゼロショットでの汎化が得意ですが、プロンプトチューニングは誤ったラベルに起因する非常に大きな勾配が事前学習の事前知識を上書きしてしまうため、ラベルノイズに弱いです。
  • 本論文では、Double-Softmax Prompt Tuning(DSPT)を提案しており、ハイパーパラメータなしで高誤差(おそらくノイズ)サンプル由来の勾配を抑制しつつ、有益な更新を維持します。
  • DSPTは、逐次的な確率正規化により自己適応的な「飽和ゾーン」を作り、高エラーのサンプルからの勾配シグナルを実質的にフィルタリングする仕組みです。
  • 著者らは理論解析と実験的検証の両方を通じて、DSPTがどのように適応的な勾配抑制を実現するかを示し、「gradient vanishing」を訓練上のボトルネックからノイズ除去の盾へと転換する考え方を提示します。
  • 複数のノイズ付きベンチマークで行われた大規模実験により、DSPTはシンプルな差し替え(drop-in)設計でありながら、複雑な手法や手作業のハイパーパラメータに基づく手法を上回る最先端の頑健性を達成したと報告されています。

Abstract

CLIPのようなコントラスト型の視覚言語モデルは、優れたゼロショット汎化を示します。しかし、プロンプトチューニングはラベルノイズに対して極めて高い感度を持っています。誤ってラベル付けされたサンプルは、過度に大きな勾配を生成し、その勾配が事前学習済みの事前知識(事前の事実)を圧倒してしまうからです。本研究では、CLIPがすでにほぼ最適な初期化を提供しているため、適応は本質的に保守的であるべきだ、特にノイズ状況で一般的な極端な勾配更新に対してそうであるべきだと主張します。そこで本研究では、勾配抑制のための内在的な方法として、ハイパーパラメータ不要の Double-Softmax Prompt Tuning(DSPT)を提案します。連続的な確率的正規化を適用することで、DSPTは自己適応的な飽和領域を誘導し、高誤差のノイズサンプルからの勾配を抑制しつつ、情報を持つ更新は維持します。また、このメカニズムがどのように適応的な抑制を実現するのかについて、理論的解析と実験的根拠の両方を示します。この設計は、従来トレーニングのボトルネックであった「勾配消失」を、ラベルノイズに対するプロンプトチューニングのための原理に基づくノイズフィルタリングの盾へと変換します。大規模な実験により、この単純な「差し替え(drop-in)」設計が、さまざまなノイズベンチマークにおいて最先端の頑健性を達成し、複雑なアーキテクチャや手作業で作られたハイパーパラメータを用いる手法を上回ることが確認されています。