AIPsy-Affect:キーワード不要の臨床刺激バッテリー—言語モデルにおける感情の機構的解釈可能性のために
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、LLMの「感情」をめぐる機構的解釈可能性研究における重要な方法論的コンフウンドとして、感情語を含む刺激では「感情そのもの」を検出しているのか「感情語のトークン存在」を検出しているのかが判別できない点を指摘しています。
- その解決として、Plutchikの主要8感情を対象にした192のキーワード不要ナラティブ・ヴィネットと、それに対応する感情語手がかりを取り除いた一致中立コントロールを含む、オープンに公開される480項目の臨床刺激バッテリーAIPsy-Affectを提案します。
- 一致ペア構造により、線形プロービング、アクティベーション・パッチング、SAE特徴分析、因果アブレーション、ステアリングベクトル抽出といった分析で、感情語の存在に基づくことができないという強い保証が得られることが示されます。
- 3手法のNLPディフェンス(bag-of-wordsセンチメント、感情カテゴリ辞書、文脈Transformer分類器)で評価し、狙い通り、浅い語彙ベース法は状況語彙にしか反応せず、文脈モデルは感情を検出する一方でキーワードなしではカテゴリ特定できないことが支持されています。
- AIPsy-Affectは既存の96項目バッテリーを4倍に拡張し、MITライセンスでオープンに公開されます。
