Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?

arXiv cs.LG / 4/14/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 機械的解釈可能性はアラインメント監査の動機がある一方、単なるプロンプトによる“説明の引き出し”が性能向上に見えることがあるとして、評価上の「elicitation confounder」を提示しています。
  • Pandoは説明の軸(真のルールに忠実/説明なし/不忠実だが自信あり)を導入し、説明可能性手法が“内部信号”を回復しているのか“引き出し”なのかを切り分けるモデル・オーガニズムのベンチマークです。
  • 720の微調整モデル(隠れた決定木ルール)で検証した結果、説明が忠実な場合はブラックボックスの推定が白箱手法と同等以上になり、説明が欠落または誤誘導される場合は勾配ベースの属性推定が3〜5ポイント改善します。
  • 具体的にはRelevance patching(Relevance patching/RelP)が最大の利益を示し、一方でlogit lens、sparse autoencoders、circuit tracingは再現性のある有益性が確認されませんでした。
  • さらに分散分解から、勾配は意思決定計算に追随して因果的に効く入力フィールドを捉えるのに対し、他の読み出しはタスク表現やフィールド同一性・値へのバイアスに支配される可能性が示唆されています。

Abstract

Mechanistic interpretability is often motivated for alignment auditing, where a model's verbal explanations can be absent, incomplete, or misleading. Yet many evaluations do not control whether black-box prompting alone can recover the target behavior, so apparent gains from white-box tools may reflect elicitation rather than internal signal; we call this the elicitation confounder. We introduce Pando, a model-organism benchmark that breaks this confound via an explanation axis: models are trained to produce either faithful explanations of the true rule, no explanation, or confident but unfaithful explanations of a disjoint distractor rule. Across 720 finetuned models implementing hidden decision-tree rules, agents predict held-out model decisions from 10 labeled query-response pairs, optionally augmented with one interpretability tool output. When explanations are faithful, black-box elicitation matches or exceeds all white-box methods; when explanations are absent or misleading, gradient-based attribution improves accuracy by 3-5 percentage points, and relevance patching, RelP, gives the largest gains, while logit lens, sparse autoencoders, and circuit tracing provide no reliable benefit. Variance decomposition suggests gradients track decision computation, which fields causally drive the output, whereas other readouts are dominated by task representation, biases toward field identity and value. We release all models, code, and evaluation infrastructure.