AGFT：視覚言語モデルのゼロショット逆攻撃耐性に対するアラインメント誘導ファインチューニング

arXiv cs.CV / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事前学習済みの視覚言語モデル（VLM）が、ゼロショットでの性能が高いにもかかわらず、敵対的（アドバーサリアル）摂動に対して脆弱であるという問題を扱う。
既存のラベルベースの敵対的ファインチューニングは、モデルのクロスモーダル・アラインメントを破壊し、画像とテキストの対応関係を損なうことで、ゼロショット精度を低下させ得ると主張する。
アラインメント誘導ファインチューニング（AGFT）を提案し、元のモデルの確率的な予測（ソフト予測）を用いて敵対的学習を導きつつ、視覚特徴とテキスト埋め込みの間にある相対的な構造を保持する。
ファインチューニングに起因する構造変化を軽減するために、AGFTは分布整合性のキャリブレーション手順を追加し、頑健モデルの出力を、温度スケーリングした事前学習モデルの出力に整合させる。
複数のゼロショットベンチマークにおける実験の結果、AGFTは従来の最先端手法よりも優れており、クロスモーダルなセマンティクスを損なうことなく、より強いゼロショットの敵対的耐性を実現する。

要旨: 事前学習済みの視覚言語モデル（VLMs）は強力なゼロショット汎化性能を示す一方で、敵対的摂動に対して脆弱である。既存の分類ガイド型の敵対的ファインチューニング手法はしばしば、事前学習済みのクロスモーダル整合を損なってしまい、視覚とテキストの対応関係が弱まり、ゼロショット性能が低下する。本論文では、クロスモーダルの意味構造を保持しつつ、ゼロショットにおける敵対的頑健性を高めるAlignment-Guided Fine-Tuning（AGFT）フレームワークを提案する。画像とテキストの間にある相対的な関係を維持できないハードラベルに依存するラベルベース手法とは異なり、AGFTは、元のモデルの確率的予測を用いてテキストガイド付きの敵対的学習を行う。これにより、ソフトな整合分布を介して敵対的な視覚的特徴をテキスト埋め込みと整合させ、ゼロショットにおける敵対的頑健性を向上させる。ファインチューニングによって導入される構造的な不一致に対処するために、分布整合キャリブレーション機構を導入し、頑健モデルの出力を、温度スケーリングした事前学習済みモデルの予測に一致させるよう調整する。複数のゼロショットベンチマークにわたる大規模な実験により、AGFTが先端手法を上回るとともに、ゼロショットにおける敵対的頑健性を大幅に改善することを示す。