Pando:モデルが自ら説明してくれないとき、解釈可能性手法は本当に機能するのか?

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 機械的解釈可能性はアラインメント監査の動機がある一方、単なるプロンプトによる“説明の引き出し”が性能向上に見えることがあるとして、評価上の「elicitation confounder(引き出し交絡因子)」を提示しています。
  • Pandoは説明の軸(真のルールに忠実/説明なし/不忠実だが自信あり)を導入し、説明可能性手法が“内部信号”を回復しているのか“引き出し”なのかを切り分けるモデル・オーガニズムのベンチマークです。
  • 720の微調整モデル(隠れた決定木ルール)で検証した結果、説明が忠実な場合はブラックボックスの推定が白箱手法と同等以上になり、説明が欠落または誤誘導される場合は勾配ベースの属性推定が3〜5ポイント改善します。
  • 具体的にはRelevance patching(Relevance patching/RelP)が最大の利益を示し、一方でlogit lens、sparse autoencoders、circuit tracingは再現性のある有益性が確認されませんでした。
  • さらに分散分解から、勾配は意思決定計算に追随して因果的に効く入力フィールドを捉えるのに対し、他の読み出しはタスク表現やフィールド同一性・値へのバイアスに支配される可能性が示唆されています。