要旨: 企業のNLPにおけるユーザの信頼を確保するために、堅牢な説明がますます求められている。しかし、一般的なケースであるブラックボックス配備(APIのみのアクセス)では、表現ベースの説明器が不可能であり、既存研究も、特に組織がエンコーダ型分類器からデコーダ型LLMへ移行する際に、説明が実際のユーザノイズ下で安定性を保つのかどうかについて十分な指針を与えていないため、事前配備時の検証が困難である。そこで本研究では、leave-one-out occlusion(1つ除外した隠蔽)に基づくトークンレベルの説明に対する統一的なブラックボックス堅牢性評価フレームワークを提案する。そして、説明の堅牢性を、複数の深刻度レベルにおける現実的な摂動(置換、削除、シャッフル、逆翻訳)下でのトップトークン反転率(top-token flip rate)として実運用化する。このプロトコルを用いて、3つのベンチマークデータセットと、エンコーダ系列およびデコーダ系列にまたがる6モデル(BERT、RoBERTa、Qwen 7B/14B、Llama 8B/70B;64,800ケース)に対して、体系的なクロスアーキテクチャ比較を行う。その結果、デコーダLLMはエンコーダ基準モデルよりも大幅に説明が安定しており(平均で反転率が73%低い)、また安定性はモデル規模とともに改善することが分かる(7Bから70Bで44%の改善)。最後に、堅牢性の改善を推論コストと関連づけ、実運用に資するコスト・堅牢性のトレードオフ曲線を導出する。これにより、コンプライアンスに敏感なアプリケーションにおいて、配備前のモデルおよび説明の選択を支援する。
エンタープライズNLPシステムにおけるユーザ信頼のための堅牢な説明
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンタープライズNLPに対するトークン単位の説明が、モデルをブラックボックスAPI経由でしか利用できない状況で頑健かつ信頼できるかをどのように評価するかを扱う。これにより、通常の表現ベースの説明手法が制限される。
- leave-one-out型のオクルージョンを用いた統一的なブラックボックス堅牢性評価フレームワークを提案し、現実的な摂動(スワップ、削除、シャッフル、逆翻訳)を複数の強度で加えた際の安定性を「top-token flip rate(上位トークン反転率)」によって定量化する。
- 64,800ケースにわたる3つのベンチマークデータセットおよび6種類のエンコーダ/デコーダモデル(BERT、RoBERTa、Qwen 7B/14B、Llama 8B/70B)での実験の結果、デコーダLLMはエンコーダ基線に比べて説明が大幅に安定しており、平均で反転率が73%低いことが示される。
- モデル規模が大きいほど説明の安定性は向上し(7Bから70Bで約44%の増加)、さらに堅牢性が推論コストと結び付けられることを明らかにする。その結果、コンプライアンスに敏感な導入に向けてモデル/説明の選択を導くコスト–堅牢性のトレードオフ曲線が得られる。


