Contract And Conquer: ブラックボックスモデルの敵対的例を証明可能に計算する方法?
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は Contract And Conquer (CAC) を提案します。ブラックボックス設定におけるニューラルネットワークの敵対的例を証明可能に計算する手法です。
- CAC は拡張する蒸留データセット上での知識蒸馏と、敵対的探索空間の厳密な収縮を用いて、証明可能な保証を実現します。
- 著者らは転移可能性の保証を証明します。CAC はブラックボックスモデルの敵対的例を、所定の反復回数内に生成できることを証明します。
- ImageNetでの実験(ビジョントランスフォーマーを含む)により、CAC は既存のブラックボックス攻撃手法を上回ることを示しています。
要旨: ブラックボックスの敵対的攻撃は、モデルの出力の特定の変化を狙った入力データの悪意ある摂動に対して、深層ニューラルネットワークの頑健性を評価するためのツールとして広く用いられています。これらの手法は経験的には有効であるものの、特定のモデルに対して敵対的な例を見つけられる保証は通常ありません。本論文では、ブラックボックス方式でニューラルネットワークの敵対的例を証明可能に計算する手法として Contract And Conquer (CAC) を提案します。手法は、拡張する蒸留データセット上での黒箱モデルの知識蒸馏と、敵対的例探索空間の正確な収縮に基づいています。CAC は転移可能性の保証によって支えられており、所定のアルゴリズム反復回数内に黒箱モデルの敵対的例を導出できることを証明します。実験では、提案手法が ImageNet データセット上で、ビジョントランスフォーマーを含むさまざまなターゲットモデルに対して、既存の最先端ブラックボックス攻撃手法を上回ることを示しています。