要旨: 大規模言語モデル(LLM)は、感情に敏感な人間—AIアプリケーションでますます使われるようになっている一方、感情認識が内部でどのように表現されているのかについてはほとんど分かっていない。本研究では、疎オートエンコーダ(SAE)を用いて、LLMにおける感情認識の内部メカニズムを調査する。層をまたいだ疎な特徴量の活性化を分析することで、情報の流れが一貫して3つのフェーズから成ることを特定し、そのうち感情に関連する特徴が現れるのは最終フェーズだけであることを示す。さらに、感情表現は、感情間で共有される特徴と、感情固有の特徴の両方から構成されることを明らかにする。位相を層別化した因果トレーシングによって、感情予測に強く影響する少数の特徴集合を特定し、そしてそれらの数と因果的影響が感情ごとに変化することを示す。特に、嫌悪は他の感情よりも弱く、拡散的に表現されている。最後に、解釈可能でデータ効率の高い因果的特徴ステアリング手法を提案し、複数のモデルにわたって感情認識性能を大きく改善しつつ、言語モデリング能力をほぼ維持することを示す。そして、この改善が複数の感情認識データセットにわたって一般化することを実証する。総じて、本研究の発見は、LLMにおける感情認識の内部メカニズムを体系的に分析するものであり、モデル性能を改善するための効率的で、解釈可能かつ制御可能なアプローチを提示する。
構文から感情へ:LLMにおける感情推論のメカニスティック解析
arXiv cs.CL / 2026/4/29
📰 ニュースModels & Research
要点
- 本研究ではスパース自己符号化器(SAE)を用いて、LLMが感情認識を内部でどのように表現しているかを調べ、感情に関連する特徴が最終フェーズでのみ現れる一貫した3段階の情報フローを見いだしました。
- 感情表現は、感情間で共有される特徴と、感情ごとに固有な特徴の両方から構成されており、各感情は異なる因果メカニズムに依存することを示しています。
- フェーズ別の因果トレーシングにより、感情予測へ強く影響する少数の特徴を特定し、これらの特徴の数や因果的影響は感情によって変化することを明らかにしました。特に、嫌悪(Disgust)は他の感情より弱く、拡散的に表現されていると報告されています。
- 解釈可能でデータ効率の高い因果的特徴スティアリング手法を提案し、複数のモデルで感情認識性能を大きく改善しつつ、言語モデリング能力をほとんど保持することを示しました。また、その改善は複数の感情認識データセットにわたって一般化します。
- 総じて、本研究はLLMにおける感情推論の内部機構を体系的に説明するとともに、感情的にセンシティブな用途で性能を高めるための実用的で制御可能な介入手法を提示しています。


