要旨: 概念ベースモデルは、高レベルの中間概念を予測することで解釈可能性を向上させることを目指し、高リスクな状況での導入に向けた有望なアプローチです。しかし、これらは情報漏えいに悩まされることが知られており、すなわちモデルが学習された概念の中に符号化された意図しない情報を利用してしまう現象です。私たちは、情報理論的な枠組みにより漏えいを厳密に特徴付け、定量化することを導入し、補完的な2つの指標を定義します:概念-タスク漏えい(CTL)と概念間漏えい(ICL)スコアです。これらの指標が介入下におけるモデル挙動を強く予測でき、既存の代替手法よりも優れていることを示します。この枠組みを用いて、漏えいの主たる原因を特定し、ケーススタディとして、概念埋め込みモデルにおいてそれがどのように現れるかを分析します。そこでは、設計により存在する概念-タスク漏えいに加えて、概念間漏えいとアライメント漏えいが明らかになります。最後に、漏えいを減らし、解釈可能性を確保するための概念ベースモデル設計に関する実践的なガイドライン一式を提示します。
概念ベースモデルにおけるリークと解釈可能性
arXiv stat.ML / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 概念ベースモデルは、途中で人間が理解できる概念を予測することで解釈可能性の向上を目指すが、学習された概念表現に埋め込まれた情報リークによって失敗することがある。
- 本論文では、情報理論に基づく枠組みを導入し、2つの定量的指標—概念・タスク間リーク(CTL)と概念間リーク(ICL)—を定義することで、リークを厳密に特徴づけ、測定する。
- CTLスコアとICLスコアは、介入(intervention)下でモデルがどのように振る舞うかを強く予測でき、既存のリーク関連指標よりも優れていることが示される。
- 著者らはリークの主な原因を特定し、概念埋め込みモデルのケーススタディでは、設計によってすでに存在しているリーク(概念間およびアラインメント・リークを含む)に加えて、さらなるリークのモードがあることを見出す。
- 本論文は、リークを低減し、概念ベースモデルのアーキテクチャにおける解釈可能性を維持するための実践的な設計ガイドラインで締めくくる。