機能的帰属(Functional Attribution)によるメカニスティック異常検知

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、メカニスティック異常検知(MAD)を「信頼できる参照セットのサンプルがモデル出力をどの程度説明できるか」という機能的帰属問題として再定義し、帰属がうまくいかない場合に内部メカニズムの異常を示すとします。
  • 実装では影響関数(influence functions)を用い、パラメータ空間のサンプリングを通じてテストサンプルと小さな参照セットの間の機能的結合を測定します。
  • 複数の異常タイプとモダリティにまたがる実験で、視覚モデルのバックドアに対してBackdoorBenchで最先端の性能を達成し、7つの攻撃と4つのデータセットにおける平均DER(Defense Effectiveness Rating)が0.93となることを示します。
  • LLMに対しても、明示的に難読化されたモデルを含む複数のバックドア種でベースラインより検知精度を大きく改善し、さらに敵対的・分布外(OOD)入力の検知や、1つのモデル内に存在する複数の異常メカニズムの識別も可能であると報告します。

Abstract

ニューラルネットワークの出力の正しさは、正解ラベル(ground truth)を使って検証できることが多いですが、その出力が通常の内部機構によって生成されたのか、それとも異常な内部機構によって生成されたのかを、確実に判定することはできません。機構ベースの異常検出(MAD)はこれらのケースを検出することを目指していますが、既存手法は、難読化(obfuscation)に脆弱な潜在空間解析に依存するか、あるいは特定のアーキテクチャやモダリティに特化しているかのいずれかです。私たちはMADを機能的帰属(functional attribution)の問題として再定式化します。すなわち、信頼できる集合からのサンプルが、モデルの出力をどの程度まで説明できるのかを問うのです。そして、帰属が失敗することが異常な挙動のシグナルになります。私たちはこれを、影響関数(influence functions)を用いて実装し、パラメータ空間におけるサンプリングによって、テストサンプルと小さな参照集合との間の機能的な結合(functional coupling)を測定します。複数の異常タイプおよびモダリティにわたって評価します。視覚モデルにおけるバックドアに関しては、本手法はBackdoorBenchで最先端の検出性能を達成し、7つの攻撃と4つのデータセットにわたる平均防御有効性評価(DER)が0.93(次点0.83)です。LLMに対しても同様に、明示的に難読化されたモデルを含むいくつかのバックドア種別において、ベースラインより大きな改善を達成します。バックドアにとどまらず、本手法は敵対的サンプルや分布外(out-of-distribution)サンプルを検出でき、さらに単一モデル内に存在する複数の異常メカニズムを区別することができます。これらの結果は、機能的帰属を、配備されたモデルにおける異常挙動を検出するための、モダリティに依存しない有効な手段として確立するものです。