概要: 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて強力な性能を発揮しますが、その意思決定プロセスは解釈が難しいままです。この透明性の欠如は、現実のシステムにおける信頼、デバッグ、デプロイメントに課題をもたらします。
本論文では、SST-2の感情分類のために微調整したDistilBERTモデルを用い、3つの説明可能性技術(Integrated Gradients、Attention Rollout、SHAP)について、適用に基づく比較研究を提示します。新しい手法を提案するのではなく、同一で再現可能なセットアップのもとで、既存アプローチの実際の振る舞いを評価することに焦点を当てています。
結果は、勾配ベースのアトリビューションがより安定して直感的な説明を与える一方で、注意(attention)ベースの方法は計算効率が高いものの、予測に関わる特徴との整合性が低いことを示しています。モデル非依存アプローチは柔軟性を提供しますが、計算コストが高くなり、ばらつきも増えることにつながります。
本研究は、説明可能性手法の主要なトレードオフを明らかにし、決定的な説明というよりは診断ツールとしての役割を強調します。この知見は、トランスフォーマー系NLPシステムに取り組む研究者およびエンジニアにとって実用的な洞察を提供します。
これはプレプリントであり、査読は受けていません。
大規模言語モデルに対する応用的説明可能性:比較研究
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルの解釈可能性の不足に対処するため、Integrated Gradients、Attention Rollout、SHAPの3つの既存手法を検討します。
- 実験は、SST-2の感情分類で微調整したDistilBERTを用い、手法同士を公平に比較できるように一貫した再現可能なセットアップで行われます。
- 結果として、勾配ベースのアトリビューションはより安定的で直感的な説明を与える一方、注意ベースの手法は計算効率が高いものの、予測に関係する特徴との整合性が弱いことが示されます。
- モデル非依存の手法(SHAPなど)は柔軟性がある一方で、計算コストが高く、結果のばらつきも大きいことが明らかになります。
- 本研究は、説明可能性ツールは「決定的な説明」ではなく「診断のための手段」として用いるべきであり、研究者・エンジニアにとって重要な手法間のトレードオフを強調しています。



