XAIからストーリーへ：LLM生成説明の品質に関する因子設計研究

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、予測モデルの選択、XAI手法、LLMの選択、プロンプト戦略が自然言語による説明の品質に与える影響を、因子設計を用いて検討する。
4つのモデル（XGBoost、Random Forest、MLP、SARIMAX）、3つのXAI条件（SHAP、LIME、XAIなし）、3つのLLM（GPT-4o、Llama-3-8B、DeepSeek-R1）、8つのプロンプト戦略を横断して、G-Evalを用い、二つのLLMによる判定と4つの評価基準で時系列予測に関する660件の説明を評価する。
結果は、XAIはXAIなしと比較してわずかな改善しかもたらさず、主に専門家の聴衆向けに限定される。一方、LLMの選択が全要因を支配し、DeepSeek-R1はGPT-4oおよびLlama-3を上回った。
解釈可能性のパラドックスを示す：SARIMAXは高い精度にもかかわらずMLモデルよりNLE品質が低い。ゼロショット・プロンプティングは自己一貫性と競合する水準で、コストを約7分の1に抑えられる。連鎖思考はむしろ害になる。

要約: Explainable AI (XAI) の手法である SHAP や LIME は、専門家でないユーザーには依然として理解しづらい数値的特徴寄与を生み出します。
先行研究では、大規模言語モデル（LLMs）がこれらの出力を自然言語による説明（NLEs）に変換できることが示されていますが、高品質な説明に寄与する要因はまだ不明です。
本研究では、予測モデルの選択、XAI 手法、LLM の選択、および prompting 戦略が NLE の品質に与える影響を系統的に因子実験します。
設計は4つのモデル（XGBoost（XGB）、Random Forest（RF）、Multilayer Perceptron（MLP）、および SARIMAX - ブラックボックス機械学習（ML）と古典的な時系列アプローチの比較）、3つの XAI 条件（SHAP、LIME、そして XAIなしのベースライン）、3つの LLM（GPT-4o、Llama-3-8B、DeepSeek-R1）、および8つの prompting 戦略を対象とします。
G-Eval を用いた、LLMを審査員とする評価手法、2名のLLM審査員と4つの評価基準を用いて、時系列予測に関する660件の説明を評価します。
私たちの結果は次のことを示唆します：
(1) XAI は no-XAI ベースラインに対して小さな改善しかもたらさず、専門家のオーディエンスに限られます；
(2) LLM の選択が他のすべての要因を支配し、DeepSeek-R1 が GPT-4o および Llama-3 を上回ります；
(3) 解釈可能性のパラドックスを観察します：本設定では、SARIMAX は予測精度が高いにもかかわらず、ML モデルより NLE の品質が低くなりました；
(4) ゼロショット prompting は自己一貫性と比較して7倍低コストで競争力があります；
(5) chain-of-thought は役に立つどころか害になります。

返却形式: {\"translated\": \"翻訳済みHTML\"}

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

XAIからストーリーへ：LLM生成説明の品質に関する因子設計研究

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer