SNEAKDOOR：分布整合（distribution matching）に基づくデータセット蒸留に対するステルスなバックドア攻撃

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、分布整合ベースのデータセット蒸留手法を対象とした、新たなステルス志向のバックドア攻撃「Sneakdoor」を提案する。
Sneakdoorは、クラスの意思決定境界の近傍に存在する脆弱性を悪用し、さらに生成モジュールを用いて局所的な特徴幾何に整合した入力依存型トリガを作成することで、不可視性（imperceptibility）を実現する。
この手法は、攻撃成功率、クリーンなテスト精度、ステルス性の強いバランスを維持することを目的としており、合成の凝縮データおよびトリガを適用した推論サンプルの双方における検出可能性の低減も含む。
複数のデータセットに対する実験により、Sneakdoorは高い攻撃有効性を維持しつつ、「不可視性（invisibility）」を大幅に改善することが示される。
著者らは、再現性と当該攻撃手法のさらなる研究のために実装リポジトリを提供している。

概要: データセットの凝縮（condensation）とは、学習効果をフルスケールのデータと同等に保ちつつ、コンパクトで有益なデータセットを合成することを目的とする手法です。これは効率の面で大きな利点をもたらします。近年の研究では、凝縮プロセスがバックドア攻撃に対して脆弱になり得ることが明らかになっています。すなわち、悪意のあるトリガーが凝縮データセットに注入され、推論時のモデル挙動を操作します。先行手法は、攻撃成功率とクリーンなテスト精度のバランスを取る面で進展を見せてきましたが、多くの場合、秘匿性（ステルス性）を保つ点では不十分です。特に、凝縮データの視覚的アーティファクトや、推論時に導入される摂動を隠し切ることが課題となっています。
この課題に対処するために、我々は Sneakdoor を提案します。これは攻撃の有効性を損なうことなく秘匿性を高めます。Sneakdoor はクラスの意思決定境界が本来持つ脆弱性を活用し、さらに、局所的な特徴幾何（local feature geometry）に整合した入力に応じたトリガーを構築する生成モジュールを組み込みます。これにより検出可能性を最小化します。このような共同設計により、攻撃は人間による目視検査や統計的検出の両方に対して気づかれない状態を維持できます。
複数のデータセットにわたる大規模な実験により、Sneakdoor は攻撃成功率、クリーンなテスト精度、そして秘匿性の間で説得力のあるバランスを実現することが示されています。合成データおよびトリガーが埋め込まれたサンプルの「見えなさ」を大幅に改善しつつ、高い攻撃有効性を維持します。コードは https://github.com/XJTU-AI-Lab/SneakDoor で公開されています。