要旨: 事前学習済みの視覚言語モデル(VLMs)は強力なゼロショット汎化性能を示す一方で、敵対的摂動に対して脆弱である。既存の分類ガイド型の敵対的ファインチューニング手法はしばしば、事前学習済みのクロスモーダル整合を損なってしまい、視覚とテキストの対応関係が弱まり、ゼロショット性能が低下する。本論文では、クロスモーダルの意味構造を保持しつつ、ゼロショットにおける敵対的頑健性を高めるAlignment-Guided Fine-Tuning(AGFT)フレームワークを提案する。画像とテキストの間にある相対的な関係を維持できないハードラベルに依存するラベルベース手法とは異なり、AGFTは、元のモデルの確率的予測を用いてテキストガイド付きの敵対的学習を行う。これにより、ソフトな整合分布を介して敵対的な視覚的特徴をテキスト埋め込みと整合させ、ゼロショットにおける敵対的頑健性を向上させる。ファインチューニングによって導入される構造的な不一致に対処するために、分布整合キャリブレーション機構を導入し、頑健モデルの出力を、温度スケーリングした事前学習済みモデルの予測に一致させるよう調整する。複数のゼロショットベンチマークにわたる大規模な実験により、AGFTが先端手法を上回るとともに、ゼロショットにおける敵対的頑健性を大幅に改善することを示す。
AGFT:視覚言語モデルのゼロショット逆攻撃耐性に対するアラインメント誘導ファインチューニング
arXiv cs.CV / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習済みの視覚言語モデル(VLM)が、ゼロショットでの性能が高いにもかかわらず、敵対的(アドバーサリアル)摂動に対して脆弱であるという問題を扱う。
- 既存のラベルベースの敵対的ファインチューニングは、モデルのクロスモーダル・アラインメントを破壊し、画像とテキストの対応関係を損なうことで、ゼロショット精度を低下させ得ると主張する。
- アラインメント誘導ファインチューニング(AGFT)を提案し、元のモデルの確率的な予測(ソフト予測)を用いて敵対的学習を導きつつ、視覚特徴とテキスト埋め込みの間にある相対的な構造を保持する。
- ファインチューニングに起因する構造変化を軽減するために、AGFTは分布整合性のキャリブレーション手順を追加し、頑健モデルの出力を、温度スケーリングした事前学習モデルの出力に整合させる。
- 複数のゼロショットベンチマークにおける実験の結果、AGFTは従来の最先端手法よりも優れており、クロスモーダルなセマンティクスを損なうことなく、より強いゼロショットの敵対的耐性を実現する。
関連記事

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note

AI時代に新卒採用はどうなる? SBI 「よほど優秀でないと採らない」の衝撃
note

40代フリーランス必見!散らばった記事をまとめるピラー記事の骨格をAIに設計させるプロンプト【コピペOK】
note