ニューラルモデルにおける概念表現を分析するための枠組み

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、概念表現を評価するために「包含（概念がサブスペース内では表現されるが外では表現されないか）」と「非絡み合い（他の概念からの隔離度）」の2軸で概念サブスペースを調べる統一的な枠組みを提案している。
テキストと言語（音声）モデルでの実験では、概念サブスペースは必ずしも一意に定まらないことが示され、概念サブスペース分析の解釈に影響を与えると論じている。
異なるコミュニティで提案された5種類の推定器を比較した結果、推定器の選択が包含性と非絡み合い性の測定結果に大きく影響することが分かった。
概念消去手法LEACEは両方の軸で良好に機能する一方、未見データへの一般化には依然として課題が残る。
HuBERTの音声表現では、電話（phoneme）情報は話者情報に対して包含されかつ非絡み合っているが、話者情報は電話から非絡み合っていてもコンパクトなサブスペースに収めるのが難しい。

Abstract

人間が解釈可能な概念をニューラルモデルがどのように表現するかを理解することは難しい。先行研究では、プロービングや概念消去（concept erasure）など、多様な観点から線形概念部分空間を探ってきた。私たちは、これらの部分空間を2つの軸に沿って研究するための統一的な枠組みを提案する。すなわち、 extit{包含性（containment）}は、ある概念が部分空間の内では完全に表現されているが外ではそうでないかを検証し、 extit{非絡み（disentanglement）}は、他の概念からの孤立性（分離）を検証する。テキストモデルと音声モデルの両方に関する実験では、まず概念部分空間が一意に定まらない可能性があることを示し、そのうえで概念部分空間分析への含意を議論する。次に、異なるコミュニティで提案された5つの推定器を用いて推定した概念部分空間の性質を比較する。以下が分かる。(1) 推定器の選択が包含性と非絡みの性質に影響する。(2) 最先端の概念消去手法であるLEACEは両方の検証軸で良好に機能するが、それでも未見データへの一般化には依然として苦戦する。(3) HuBERTの音声表現では、音素情報は話者情報から両方とも包含されかつ非絡みになっている一方で、話者情報は、音素からは非絡みになっているにもかかわらず、コンパクトな部分空間に包含することが難しい。