Whether, Not Which: 機構的解釈可能性がLLMにおける分離可能な情動受容と情動カテゴリ化を明らかにする

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数のLLMに対して、臨床スタイルのビネット(文脈的手がかりによって情動を喚起する)を用い、感情キーワードを除いた条件で、先行する「感情回路」主張を検証する。
  • 4つの機構的解釈可能性アプローチ(線形プロービング、因果的アクティベーションパッチング、ノックアウト実験、表象幾何)を用いた結果、著者らは2つの分離可能なメカニズム、すなわち「情動受容」と「情動カテゴリ化」を見出す。
  • 情動受容はキーワード無しでもほぼ完全であり(AUROC 1.000)、早期層の飽和と、情動的に重要な内容の検出がキーワードに依存しないことを示唆する。
  • 情動カテゴリ化は部分的にキーワード依存であり、キーワード無しで1〜7%低下し、モデル規模が大きいほど改善する。これは、特定のラベルへの対応が、明示的な語のシグナルから完全に切り離されていないことを示す。
  • これらの結果は「キーワード・スポッティング(語の検出)」仮説を反証し、情動関連表象を評価するためのより厳密な標準として臨床ビネット手法を提案する。さらにAIセーフティおよびアライメントへの含意がある。

Abstract

大規模言語モデルは、感情の内部表現――「感情回路」「感情ニューロン」「構造化された情動マニフォールド」――を発達させているように見える。これらは複数のモデルファミリーにまたがって報告されている。しかし、そうした主張を行うすべての研究は、明示的な感情キーワードによって合図された刺激を用いており、根本的な疑問が未解決のまま残っている。すなわち、これらの回路は本物の感情的意味を検出しているのか、それとも「打ちのめされた」という語そのものを検出しているだけなのか、という点である。私たちは、臨床心理学に基づくメカニスティック解釈可能性手法を用いた、感情回路主張に対する最初の臨床的妥当性テストを提示する。すなわち、状況的・行動的手がかりだけで感情を喚起する臨床ビネットを用い、感情キーワードを取り除く。6つのモデル(Llama-3.2-1B、Llama-3-8B、Gemma-2-9B;ベースおよび指示(instruct)バリアント)に対して、線形プロービング、因果的アクティベーション・パッチング、ノックアウト実験、表現幾何学という4つの収束的メカニスティック解釈可能性手法を適用し、2つの解離可能な感情処理メカニズムを見出す。情動受容――感情的に重要な内容を検出すること――は、初期層の飽和と整合するほぼ完全な精度(AUROC 1.000)で動作し、6つのモデルすべてにわたって再現される。感情カテゴリ化――情動を特定の感情ラベルへ写像すること――は、キーワード依存が部分的であり、キーワードなしでは1〜7%低下し、スケールとともに改善する。因果的アクティベーション・パッチングにより、キーワードを含む刺激と含まない刺激が同一の表現空間を共有し、感情カテゴリ同一性ではなく情動的な顕著性(affective salience)を転移することが確認される。これらの結果は、キーワード検出仮説を反証し、新規なメカニスティックな解離を確立するとともに、大規模言語モデルにおける感情処理主張を検証するための厳密な標準として、臨床刺激の手法論を導入する――そしてAIの安全性評価とアライメントに直接的な示唆を与える。すべての刺激、コード、データは複製可能な形で公開する。