機能的帰属(Functional Attribution)によるメカニスティック異常検知
arXiv cs.LG / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、メカニスティック異常検知(MAD)を「信頼できる参照セットのサンプルがモデル出力をどの程度説明できるか」という機能的帰属問題として再定義し、帰属がうまくいかない場合に内部メカニズムの異常を示すとします。
- 実装では影響関数(influence functions)を用い、パラメータ空間のサンプリングを通じてテストサンプルと小さな参照セットの間の機能的結合を測定します。
- 複数の異常タイプとモダリティにまたがる実験で、視覚モデルのバックドアに対してBackdoorBenchで最先端の性能を達成し、7つの攻撃と4つのデータセットにおける平均DER(Defense Effectiveness Rating)が0.93となることを示します。
- LLMに対しても、明示的に難読化されたモデルを含む複数のバックドア種でベースラインより検知精度を大きく改善し、さらに敵対的・分布外(OOD)入力の検知や、1つのモデル内に存在する複数の異常メカニズムの識別も可能であると報告します。



