現実的なベンチマークにおけるLLM失敗の解釈分析：Contrastive Attribution

arXiv cs.AI / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

既存のLLM解釈可能性（interpretability）研究は短いプロンプトやおもちゃの設定に偏っており、一般的なベンチマークでの失敗挙動が十分に調べられていないというギャップを論じています。
本研究では「contrastive attribution」を提案し、誤った出力トークンと正しい代替トークンのログイット差を、入力トークンと内部モデル状態に帰属させる対照的（contrastive）なLRPベース手法を示します。
長い文脈に対して分析できるように、層をまたいだ帰属（attribution）グラフを効率的に構築する拡張も導入されています。
複数のベンチマークにわたり、データセット、モデル規模、学習チェックポイントの違いによって帰属パターンがどう変わるかを体系的に比較しています。
結果として、トークンレベルの対照的帰属は一部の失敗ケースで有益なシグナルを与える一方、すべての状況で普遍的に使えるわけではないため、有用性と限界の両方が明確になったと報告しています。

要旨: 解釈可能性ツールは、大規模言語モデル（LLM）の失敗を分析するためにますます用いられているが、従来の研究は主として短いプロンプトやおもちゃのような設定に焦点を当てており、一般に用いられるベンチマークにおける挙動は十分に調査されていない。このギャップに対処するために、本研究では、現実的な設定におけるLLMの失敗を分析するための実用的なツールとして、対照的（contrastive）かつLRP（Layer-wise Relevance Propagation）ベースの帰属（attribution）を検討する。我々は失敗分析を extit{対照的帰属（contrastive attribution）} として定式化し、不正解の出力トークンと正しい代替案の間のロジット差を、入力トークンおよび内部モデル状態に帰属させる。さらに、長い文脈入力に対して層をまたいだ帰属グラフを構築できるようにする効率的な拡張を導入する。この枠組みに基づいて、複数のベンチマークにまたがる体系的な実証研究を行い、データセット、モデルサイズ、学習チェックポイント間で帰属パターンを比較する。その結果、トークン単位の対照的帰属は、一部の失敗ケースにおいて有益な信号をもたらし得る一方で、普遍的に適用できるわけではないことが示された。これにより、現実的なLLMの失敗分析における有用性と限界の両方が明らかになる。コードは以下で利用可能: https://aka.ms/Debug-XAI.