Whether, Not Which: 機構的解釈可能性がLLMにおける分離可能な情動受容と情動カテゴリ化を明らかにする
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数のLLMに対して、臨床スタイルのビネット(文脈的手がかりによって情動を喚起する)を用い、感情キーワードを除いた条件で、先行する「感情回路」主張を検証する。
- 4つの機構的解釈可能性アプローチ(線形プロービング、因果的アクティベーションパッチング、ノックアウト実験、表象幾何)を用いた結果、著者らは2つの分離可能なメカニズム、すなわち「情動受容」と「情動カテゴリ化」を見出す。
- 情動受容はキーワード無しでもほぼ完全であり(AUROC 1.000)、早期層の飽和と、情動的に重要な内容の検出がキーワードに依存しないことを示唆する。
- 情動カテゴリ化は部分的にキーワード依存であり、キーワード無しで1〜7%低下し、モデル規模が大きいほど改善する。これは、特定のラベルへの対応が、明示的な語のシグナルから完全に切り離されていないことを示す。
- これらの結果は「キーワード・スポッティング(語の検出)」仮説を反証し、情動関連表象を評価するためのより厳密な標準として臨床ビネット手法を提案する。さらにAIセーフティおよびアライメントへの含意がある。
