選択し、仮説を立て、検証する:検証可能なニューロン概念解釈に向けて

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自然言語による概念生成に依存する既存のニューロン解釈手法の限界を指摘し、ニューロンが冗長であったり誤解を招いたりすることで、解釈の誤りにつながり得ることを述べている。
  • 生成された概念がニューロンの機能に実際に対応しているかを、関連するサンプルにおいて高い活性を要求することで確認する検証ステップを導入する。
  • 提案する Select-Hypothesize-Verify(選択・仮説・検証)フレームワークは、活性分布の分析によって活性の高いサンプルを選択し、概念仮説を立て、そして概念からニューロンへの忠実性を検証する。
  • 実験の結果、概念の精度が向上し、生成された概念が対象のニューロンを発火させる確率が、現行の最先端手法と比べておよそ1.5倍であることが示されている。

要旨: ニューラルネットワークの判断を理解するためには、ニューロンの機能(概念とも呼ばれます)を解釈することが不可欠です。既存のアプローチでは、自然言語による記述を生成することでニューロンの概念を説明し、それによってニューラルネットワークの意思決定メカニズムの理解が進んでいます。しかし、これらのアプローチは、各ニューロンが明確に定義された機能を持ち、ニューラルネットワークの意思決定にとって識別的な特徴を提供すると仮定しています。実際には、いくつかのニューロンは冗長であったり、誤解を招く概念を提示したりする可能性があります。そのため、そのようなニューロンに対する記述は、ニューラルネットワークの判断を駆動している要因の誤解につながるかもしれません。そこで、この問題に対処するために、生成された概念が対応するニューロンをどれほど強く活性化するかを確認する、ニューロン機能の検証を導入します。さらに、ニューロンの機能を解釈するための Select-Hypothesize-Verify(選択-仮説-検証)フレームワークを提案します。このフレームワークは、次の 1)活性分布分析により、そのニューロンの明確に定義された機能的振る舞いを最もよく捉える活性化サンプルを選択すること、2) 選択されたニューロンに関する概念について仮説を立てること、3) 生成された概念がそのニューロンの機能を正確に反映しているかを検証すること、から構成されます。大規模な実験の結果、提案手法はより正確なニューロン概念を生成することが示されました。私たちが生成した概念は、現行の最先端手法の約 1.5 倍の確率で、対応するニューロンを活性化します。