XAI評価の再考：高リスク環境におけるシャープレイ・ベンチマークの人間中心の監査

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ShapleyベースのXAIが、亜種が乱立することと、人的有用性との整合性が検証されていない定量プロキシに依存していることで弱体化していると主張している。
著者らは、アモルタイズド（償却）型の統一フレームワークを用いて、運用上のリスク業務で典型的な低遅延制約下における8種類のShapley変種のセマンティックな差異を切り分けている。
4つのリスクデータセットと、専門アナリストが3,735件を精査する現実的な不正検知環境で大規模実験を行っている。
結果として、疎性や忠実性といった標準的な定量指標が、人が感じる明瞭さや意思決定の有用性と必ずしも結びつかないことが示されている。
いずれのShapley形式もアナリストの客観的なパフォーマンスを改善しなかった一方で、説明が意思決定への自信を一貫して高めており、高リスク領域における自動化バイアスの重大なリスクが示唆されている。

要旨: シャプレイ値は説明可能AIの基盤ですが、競合するさまざまな定式化への拡散によって、実運用に関するコンセンサスのほとんどない断片化された状況が生まれています。理論的な差異については十分に文書化されていますが、評価は依然として、人間の有用性との整合が検証されていない定量的な代理指標に依存しています。本研究では、統一された償却（amortized）フレームワークを用いて、運用上のリスク業務に課される低遅延の制約のもとで、8つのシャプレイのバリアント間の意味的な差異を切り分けます。4つのリスクデータセットと、専門アナリストおよび3,735件のケースレビューを含む現実的な不正検知環境を対象に、大規模な実証評価を行います。その結果、根本的な不整合が明らかになりました。すなわち、疎性や忠実性といった標準的な定量指標は、人が知覚する明瞭さや意思決定の有用性から切り離されているのです。さらに、どの定式化もアナリストの目的（客観的）なパフォーマンスを改善しませんでしたが、説明は一貫して意思決定の自信を高めました。これは、高リスクな状況における自動化バイアスの重大なリスクを示唆します。これらの知見は、現在の評価用代理指標では、下流の人間への影響を予測するには不十分であることを示しています。加えて、運用上の意思決定システムにおいて定式化と指標を選択するための、根拠に基づくガイダンスも提供します。