XAIからストーリーへ:LLM生成説明の品質に関する因子設計研究

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、予測モデルの選択、XAI手法、LLMの選択、プロンプト戦略が自然言語による説明の品質に与える影響を、因子設計を用いて検討する。
  • 4つのモデル(XGBoost、Random Forest、MLP、SARIMAX)、3つのXAI条件(SHAP、LIME、XAIなし)、3つのLLM(GPT-4o、Llama-3-8B、DeepSeek-R1)、8つのプロンプト戦略を横断して、G-Evalを用い、二つのLLMによる判定と4つの評価基準で時系列予測に関する660件の説明を評価する。
  • 結果は、XAIはXAIなしと比較してわずかな改善しかもたらさず、主に専門家の聴衆向けに限定される。一方、LLMの選択が全要因を支配し、DeepSeek-R1はGPT-4oおよびLlama-3を上回った。
  • 解釈可能性のパラドックスを示す:SARIMAXは高い精度にもかかわらずMLモデルよりNLE品質が低い。ゼロショット・プロンプティングは自己一貫性と競合する水準で、コストを約7分の1に抑えられる。連鎖思考はむしろ害になる。

要約: Explainable AI (XAI) の手法である SHAP や LIME は、専門家でないユーザーには依然として理解しづらい数値的特徴寄与を生み出します。
先行研究では、大規模言語モデル(LLMs)がこれらの出力を自然言語による説明(NLEs)に変換できることが示されていますが、高品質な説明に寄与する要因はまだ不明です。
本研究では、予測モデルの選択、XAI 手法、LLM の選択、および prompting 戦略が NLE の品質に与える影響を系統的に因子実験します。
設計は4つのモデル(XGBoost(XGB)、Random Forest(RF)、Multilayer Perceptron(MLP)、および SARIMAX - ブラックボックス機械学習(ML)と古典的な時系列アプローチの比較)、3つの XAI 条件(SHAP、LIME、そして XAIなしのベースライン)、3つの LLM(GPT-4o、Llama-3-8B、DeepSeek-R1)、および8つの prompting 戦略を対象とします。
G-Eval を用いた、LLMを審査員とする評価手法、2名のLLM審査員と4つの評価基準を用いて、時系列予測に関する660件の説明を評価します。
私たちの結果は次のことを示唆します:
(1) XAI は no-XAI ベースラインに対して小さな改善しかもたらさず、専門家のオーディエンスに限られます;
(2) LLM の選択が他のすべての要因を支配し、DeepSeek-R1 が GPT-4o および Llama-3 を上回ります;
(3) 解釈可能性のパラドックスを観察します:本設定では、SARIMAX は予測精度が高いにもかかわらず、ML モデルより NLE の品質が低くなりました;
(4) ゼロショット prompting は自己一貫性と比較して7倍低コストで競争力があります;
(5) chain-of-thought は役に立つどころか害になります。

返却形式: {\"translated\": \"翻訳済みHTML\"}