PDA：敵対的画像攻撃に対する堅牢なビジョン・ランゲージモデルのための、テキスト拡張防御フレームワーク

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、敵対的な画像摂動に対してビジョン・ランゲージモデル（VLM）をより堅牢にすることを目的とした、学習不要の推論時防御手法 Paraphrase-Decomposition-Aggregation（PDA）を提案する。
PDAは、基盤となるVLMを変更することなく、テスト時のプロンプト言い換え、質問の分解、拡張テキスト入力間での一貫性の集約を行うことで、堅牢性を向上させる。
計算量／レイテンシのトレードオフを扱うため、著者らはPDAを「invariants」として具体化し、推論コストを削減しつつ、堅牢性向上の大部分を維持する。
複数のVLMアーキテクチャと、視覚的質問応答、分類、キャプション生成のベンチマークに対する実験により、多様な敵対的攻撃に対して一貫した堅牢性の改善が報告されると同時に、クリーン（非敵対的）入力に対しても競争力のある精度が維持される。

要旨: バイジョン・言語モデル（VLMs）は、敵対的な画像の摂動に対して脆弱です。タスク固有の敵対的例に対する敵対的学習に基づく既存研究は、計算コストが高く、また見過ごされていない攻撃タイプに対して一般化できないことがしばしばあります。これらの制約に対処するために、本稿では、多様な敵対的画像攻撃のもとでVLMの頑健性を高めるためのテキスト拡張を活用する、訓練不要の防御フレームワークであるParaphrase-Decomposition-Aggregation（PDA）を提案します。PDAは、プロンプトの言い換え、質問の分解、そして整合性の集約を、すべてテスト時に実行するため、基盤となるモデルへの修正は不要です。頑健性と効率のバランスを取るために、PDAを、推論コストを削減しつつ、その頑健性向上の大部分を維持する不変量として具体化します。視覚質問応答、分類、キャプション生成のための複数のVLMアーキテクチャおよびベンチマークに対する実験により、PDAは、競争力のあるクリーン精度を維持しながら、さまざまな敵対的摂動に対して一貫した頑健性向上を達成することが示されます。これにより、推論時におけるVLMのための汎用的で強力かつ実用的な防御フレームワークが確立されます。