ConceptTracer：ニューラル表現における概念の顕著性と選択性をインタラクティブに分析する

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、ヒトが解釈できる概念を通じて解析することで、ニューラルネットワーク表現の解釈可能性を高めることを目的としたインタラクティブツール「ConceptTracer」を提案する。
ConceptTracerは、概念の顕著性と選択性を測定するための2つの情報理論的指標を用い、特定の概念に対して強く反応するニューロンをユーザが見つけられるよう支援する。
著者らは、TabPFNによって学習された表現に対して本ツールの有用性を実証し、解釈可能なニューロンの発見を支えることができることを示す。
ConceptTracerは、表形式の基盤モデルが概念レベルの情報をどのように符号化しているかを研究するための実用的な枠組みとして位置づけられており、GitHubで公開されている。
本研究は、ニューラルネットワーク、特に表形式の基盤モデルに対する、体系的な表現探索ツールの不足というより広いギャップを対象としている。

要旨: ニューラルネットワークは多様なタスクにおいて優れた予測性能を発揮しますが、その意思決定プロセスはしばしば不透明です。機械論的な解釈可能性への関心が高まっているにもかかわらず、一般にニューラルネットワークが学習する表現を体系的に探索するためのツール、そして特にタブラー・ファウンデーションモデルに関しては、いまだ限られています。本研究では、人間が解釈できる概念の観点からニューラル表現を分析するためのインタラクティブアプリケーションである ConceptTracer を導入します。ConceptTracer は、概念の顕著性および選択性を定量化する 2 つの情報理論的指標を統合し、個々の概念に強く応答するニューロンを研究者や実務者が特定できるようにします。TabPFN により学習された表現に対して ConceptTracer の有用性を示し、提案手法が解釈可能なニューロンの発見を促進することを確認します。これらの能力を通じて、TabPFN のようなニューラルネットワークが概念レベルの情報をどのように符号化しているかを調べるための実践的な枠組みが提供されます。ConceptTracer は https://github.com/ml-lab-htw/concept-tracer で利用可能です。