要約: 説明がモデルの推論を忠実に反映しているかを評価することは依然として未解決の問題です。既存のベンチマークは統計検定なしの単一の介入を用いており、真の忠実性と偶然的な性能を区別することを不可能にしています。 ICE (Intervention-Consistent Explanation) を導入します。介入演算子が複数ある中で、ランダム化検定を介して、説明を一致したランダムベースラインと比較し、信頼区間付きの勝率を得るフレームワークです。4つの英語タスク、6つの非英語言語、2つのアトリビューション手法にわたって7つのLLMを評価すると、忠実性は演算子依存であることが分かります:演算子間のギャップは最大で44ポイントに達し、短文では削除が推定値を大きくすることが多い一方、長文ではこのパターンが逆転し、忠実性は単一のスコアとしてではなく、介入演算子間で比較して解釈すべきであることを示唆しています。ランダム化ベースラインは構成の3分の1で反忠実性を示し、忠実性は人間の妥当性と0相関(|r| < 0.04)を示します。多言語評価はトークン化だけでは説明できない、劇的なモデルと言語の相互作用を明らかにします。ICE フレームワークと ICEBench ベンチマークを公開します。
ICE: 大規模言語モデル向けの統計的根拠を備えた介入整合的説明評価
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ICEは介入整合的説明(ICE)を導入するフレームワークであり、複数の介入演算子のもとでランダム化テストを用いて説明を一致させたランダムベースラインと比較し、信頼区間を伴う勝率を得る。
- 本研究は、4つの英語タスク、6つの非英語言語、2つのアトリビューション手法に対して、7つの大規模言語モデル(LLMs)を評価し、忠実性は介入演算子に依存し、最大で44パーセンテージポイントの差が生じることを発見した。削除操作は短いテキストで推定値を過大評価させる一方、長いテキストでは逆転する。
- 乱択ベースラインは約3分の1の設定で反忠実性を示し、忠実性は人間の妥当性とほぼ相関がないことが示された。
- 本研究はトークン化だけでは説明できない、モデルと言語の顕著な相互作用を浮き彫りにしており、著者らはICEフレームワークとICEBenchベンチマークを公開している。