ラベルノイズに対するビジョン・言語モデルのプロンプトチューニング:Intrinsic Gradient Suppression
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CLIPのような対比型ビジョン・言語モデルはゼロショットでの汎化が得意ですが、プロンプトチューニングは誤ったラベルに起因する非常に大きな勾配が事前学習の事前知識を上書きしてしまうため、ラベルノイズに弱いです。
- 本論文では、Double-Softmax Prompt Tuning(DSPT)を提案しており、ハイパーパラメータなしで高誤差(おそらくノイズ)サンプル由来の勾配を抑制しつつ、有益な更新を維持します。
- DSPTは、逐次的な確率正規化により自己適応的な「飽和ゾーン」を作り、高エラーのサンプルからの勾配シグナルを実質的にフィルタリングする仕組みです。
- 著者らは理論解析と実験的検証の両方を通じて、DSPTがどのように適応的な勾配抑制を実現するかを示し、「gradient vanishing」を訓練上のボトルネックからノイズ除去の盾へと転換する考え方を提示します。
- 複数のノイズ付きベンチマークで行われた大規模実験により、DSPTはシンプルな差し替え(drop-in)設計でありながら、複雑な手法や手作業のハイパーパラメータに基づく手法を上回る最先端の頑健性を達成したと報告されています。
