要旨: 大規模言語モデル(LLM)は多くのNLPタスクにおいて強力な性能を達成してきたものの、その不透明な内部メカニズムは信頼性および安全な導入を妨げています。説明可能AIに関する既存の調査の多くは、学習済みモデルを外部の近似によって解釈する、事後的な説明手法に焦点を当てています。これに対して、モデルのアーキテクチャと計算の中に透明性を直接組み込む、固有の解釈可能性(intrinsic interpretability)は、最近有望な代替手段として登場しました。本論文は、LLMにおける固有の解釈可能性の最近の進展を体系的にレビューし、既存のアプローチを5つの設計パラダイム、すなわち「機能的透明性」「概念整合」「表象の分解可能性」「明示的なモジュール化」「潜在的スパース性の誘導」に分類します。さらに、本分野における未解決の課題を議論し、この新たに現れつつある領域における今後の研究方向性を概説します。論文リストは以下で入手できます: https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs。
大規模言語モデルの内在的解釈可能性に向けて:設計原理とアーキテクチャの調査
arXiv cs.CL / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この調査は、大規模言語モデルの内部が「不透明」であることが信頼性と安全な導入を妨げるとし、事後的な説明にとどまらない解釈可能性の必要性を述べています。
- 事後推論ではなく、モデルのアーキテクチャと計算の中に透明性を直接組み込む「内在的解釈可能性」に焦点を当てています。
- 本論文は、内在的解釈可能性の最近の取り組みを5つの設計パラダイム(機能の透明性、概念整合性、表現の分解可能性、明示的なモジュール化、潜在スパース性の誘導)に整理しています。
- 残された課題と、この分野の今後の研究方向性について議論しています。
- 関連研究のリストは、付随するGitHubリポジトリを通じて提供されています。



