壊れやすい再構成：拡散生成画像に対する再構成ベース検出器の敵対的脆弱性

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散生成画像のための再構成ベース検出器が、知覚できない敵対的擾乱に対して非常に脆弱であり、その結果として検出精度がほぼゼロまで崩壊することを報告している。
著者らは、3つの代表的な検出器を4つの異なる拡散バックボーンにわたって体系的に評価することで、ホワイトボックス攻撃が十分に訓練されたすべての検出器を低下させ得ることを示している。
攻撃は検出器間で転移可能であり、ある検出器に対して作成した敵対例が他の検出器も欺けるため、ブラックボックス攻撃が可能になる。
本研究では、一般的な敵対的防御手法の効果は限定的であり、失敗の原因は検出器が認識する観点で、攻撃されたサンプルの信号対雑音比が低いことにあると考察している。
著者らは、これらの結果が再構成ベース検出の根本的なセキュリティ上の限界を明らかにすると結論づけ、現行の検出戦略を見直す必要があると主張している。

概要: 近年、拡散ベースのモデルによって生成されたAI画像を検出することは、その安全性への潜在的脅威により注目が高まっています。既存のアプローチの中でも、再構成ベースの手法はこのタスクにおける代表的なパラダイムとして登場しています。しかし、我々はこのような手法が敵対的摂動に対して重大なセキュリティ脆弱性を示すことを見出します。すなわち、入力画像に知覚できない敵対的摂動を加えることで、分類器の検出精度がほぼゼロまで崩壊します。この脅威を検証するために、4種類の多様な生成バックボーンモデルにまたがって、3つの代表的な検出器の敵対的頑健性を体系的に評価します。まず、ホワイトボックスの状況で敵対的攻撃を構築し、適切に訓練されたすべての検出器の性能を劣化させます。さらに、これらの攻撃が転移性を示すことも分かりました。具体的には、ある検出器に対して作成した攻撃を他の検出器にも転用でき、検出器に対する敵対的攻撃はブラックボックス設定でも構築可能であることを示しています。最後に、一般的な対抗策を評価し、敵対的攻撃に対する標準的な防御方法では限定的な軽減しか得られないことを見出します。これらの失敗は、検出器が認識するところの攻撃サンプルにおける低い信号対雑音比（SNR）に起因すると考えられます。総じて、我々の結果は再構成ベースの検出器に関する根本的なセキュリティ上の制約を明らかにし、既存の検出戦略を再考する必要性を強調しています。