学習ベースの準拠（コンフォーマル）ノベルティ検出における敵対的頑健性について

arXiv stat.ML / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有限サンプルでのFDR（偽発見率）制御を行う学習ベースの準拠（コンフォーマル）ノベルティ検出手法（AdaDetect と一クラス分類器ベースのアプローチ）が、敵対的摂動下でどのように劣化するかを調査する。
AdaDetect に対するオラクル攻撃の枠組みを導入し、攻撃の最悪ケースにおける FDR 劣化の上界を導出することで、攻撃の強度と敵対者側の統計的コストとの関係を明らかにする。
著者らは、実用的なブラックボックス攻撃を提案し、枠組みの出力ラベルへのクエリアクセスのみでよいことを示す。これにより、モデル全体の知識がなくても経験的評価が可能になる。
合成データセットと実データセットの双方での実験により、敵対的ノイズは検出能力を高く保ったまま FDR を大幅に引き上げ得ることが示され、現在の誤り制御型ノベルティ検出に脆弱性があることが明らかになる。
これらの結果は、敵対的な状況下でも信頼できるノベルティ検出の保証を維持するために、より敵対的に頑健な新しい代替手法が必要であることを動機づける。

概要: 本論文では、等角（conformal）な新規性検出における敵対的頑健性（adversarial robustness）を研究する。具体的には、有限標本における偽発見率（FDR）制御を備えた、強力な学習ベースの2つの枠組みに注目する。1つはAdaDetect（Marandonら、2024による）であり、正例・未ラベル（positive-unlabeled）分類器に基づくものである。もう1つは、一クラス分類器ベースのアプローチ（Batesら、2023による）である。これらは良性条件（benign conditions）の下で厳密な統計的保証を与える一方で、敵対的摂動下での振る舞いは十分に調べられていない。まず、AdaDetectの枠組みに基づく形で、オラクル攻撃の設定を定式化し、FDRの最悪時の劣化を定量化する。さらに、攻撃により生じる統計的コストを特徴づける上界を導出する。この理想化した定式化は、両方の枠組みの出力ラベルに対するクエリ（問い合わせ）アクセスのみを必要とする、実用的かつ効果的な攻撃手法を直接動機づける。加えて、これらの定式化を、広く用いられる補完的な2つの人気のブラックボックス敵対的アルゴリズムと組み合わせることで、合成データセットと実世界データセットの両方において、両枠組みの脆弱性を体系的に評価する。結果として、敵対的摂動は検出能力を高く保ったまま、FDRを大幅に増加させ得ることが示される。これは、現在のエラー制御付き新規性検出手法が持つ根本的な限界を明らかにし、より頑健な代替手法の開発を促す。