HQA-VLAttack：視覚言語事前学習モデルに対する高品質な敵対的攻撃に向けて

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストと画像の摂動を同時に扱う必要がある視覚言語事前学習モデルに対して、ブラックボックス敵対的攻撃を行う新しい枠組みHQA-VLAttackを提案します。
テキスト摂動の生成では、カウンターフィッティング語ベクトルを用いて置換語集合を作り、元の語との意味的一貫性を保証します。
画像については、層の重要度に基づく戦略で敵対的画像を初期化したのち、コントラスト学習で摂動を最適化し、正の画像-テキスト対の類似度を下げつつ負の対の類似度を高めます。
3つのベンチマークデータセットでの実験により、HQA-VLAttackが既存の強力なベースラインを攻撃成功率の面で大きく上回ることが示されます。

概要: 視覚言語の事前学習モデルに対するブラックボックスの敵対的攻撃は、テキストと画像の摂動を同時に考慮する必要があり、さらにアクセスできるのは予測結果のみであるため、実用的かつ難しい課題です。この問題に関する研究はまだ初期段階にあり、利用可能な手法はごくわずかしかありません。それにもかかわらず、既存手法は大きく分けて、複雑な反復的なクロス探索戦略に依存し、その結果として必然的に多数のクエリを消費するか、あるいはポジティブな画像-テキスト対の類似度を下げることだけを考慮してネガティブなものは無視しているため、その類似度も暗黙的に低下してしまい、結果として攻撃性能に必ず影響が出るかのどちらかです。以上の課題を緩和するために、本研究では、視覚言語の事前学習モデル上で高品質な敵対例を生成する、シンプルかつ効果的な枠組みを提案します。これを HQA-VLAttack と呼び、テキスト攻撃段階と画像攻撃段階の 2 つで構成されます。テキスト摂動生成では、反対適合（counter-fitting）したワードベクトルを活用して代替語集合を生成し、代替語と元の語との間の意味的一貫性を保証します。画像摂動生成ではまず、レイヤー重要度に導かれる戦略によって画像の敵対例を初期化し、その後、コントラスト学習を用いて画像の敵対的摂動を最適化します。これにより、ポジティブな画像-テキスト対の類似度は減少させ、ネガティブな画像-テキスト対の類似度は増加させることができます。こうして最適化された敵対的画像とテキストは、ネガティブ例を取得する可能性がより高まり、その結果として攻撃成功率が向上します。3 つのベンチマークデータセットに対する実験結果は、HQA-VLAttack が攻撃成功率の観点で強力なベースラインを大幅に上回ることを示しています。