要旨: 大規模言語モデル(LLM)は強力な性能を達成し、NLPを一変させてきましたが、その説明可能性の欠如によりブラックボックスとして扱われ続けており、透明性と信頼性を必要とする領域での利用が制限されています。この問題に対処する有望な方向性は、事後的なテキストベースの説明であり、自然言語によってモデルの判断を説明することを目指します。先行研究では、主観的に忠実であるように見える説得力のある合理化(レゾネーション)の生成に焦点が当てられてきましたが、それらの説明が認識論的に忠実であるか、すなわちモデルが実際に意思決定のために用いた内部の根拠を反映しているかどうかは、依然として不明です。本論文では、まず反実仮想(カウンターファクト)によってLLMが生成した説明の認識論的忠実性を評価し、それらがしばしば非忠実であることを示します。次に、忠実な帰属(アトリビューション)手法によって抽出されたトークンレベルのヒートマップに基づき、注意(アテンション)レベルの介入によって説明生成を導くことで、忠実性を高める学習不要(トレーニングフリー)の手法を提案します。この手法は、複数のモデル、ベンチマーク、プロンプトにわたって認識論的忠実性を大幅に改善します。
Faithfulness Serum:注意誘導によるLLM意思決定のテキスト説明における「忠実性ギャップ」の緩和
arXiv cs.CL / 2026/4/17
📰 ニュースModels & Research
要点
- 本論文は、LLMの意思決定に対する事後的な自然言語説明が、主観的にもっともらしいように見えることだけでなく、モデルが実際に依拠した内部の根拠を反映しているか(認識論的忠実性)を検証します。
- カウンターファクト評価により、LLMが生成したテキスト説明はしばしばモデルの真の判断根拠と一致せず、忠実でないことが示されます。
- 「Faithfulness Serum」として、説明生成中に注意(attention)レベルの介入を行うことで忠実性を高める、学習不要(training-free)の手法を提案します。
- さらに、忠実なアトリビューション手法から得たトークン単位のヒートマップを用いて、説明生成を関連する内部シグナルに合わせるよう誘導します。
- 複数のモデル、ベンチマーク、プロンプト設定において、認識論的忠実性が大きく改善することが実験で示されています。




