LLMにおけるバレンス—覚醒(Valence-Arousal)部分空間:円環的な感情ジオメトリと多行動制御
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、211k件の感情ラベル付きテキストから感情ステアリングベクトルを学習し、自己申告のVAスコアに対してリッジ回帰でVA軸を当てはめることで、大規模言語モデルの表現内にバレンス—覚醒(VA)部分空間を見出す手法を提案する。
- 学習したVA部分空間への射影が、44k語彙項目に対する人手(クラウドソース)によるVA評価と整合すること、またこれらの軸に沿ったステアリングによりモデルの情動的振る舞いが単調に変化することを報告する。
- 本手法は、拒否と忖度(シックフィーシー/sycophancy)に対して、ほぼ単調な双方向制御も達成する。すなわち、覚醒を高めると拒否が減少し忖度が増加する(覚醒の方向を反転させると効果も反転する)。
- 実験は複数のアーキテクチャ(Llama-3.1-8B、Qwen3-8B、Qwen3-14B)にまたがって一般化すること、さらに拒否に関連するトークンが低覚醒/負のバレンス領域を占めることに結び付けた機構的な説明を含むとされる。



