大規模言語モデルにおいて感情は道徳的判断に影響するのか?

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

要点

  • この研究では、感情を道徳的な場面に埋め込む「感情誘導」パイプラインを構築し、複数のデータセットとLLMにわたって道徳的容認度がどのように変化するかを評価しています。
  • 結果として、肯定的な感情は道徳的容認度を高め、否定的な感情は低めるという方向性のある効果が観察され、二値の道徳判断が最大20%のケースで反転しうるほどの大きさを示します。
  • 感情による道徳的変化への「なりやすさ」はモデル能力と反比例してスケールし、より高性能なモデルほど感情に起因する変化を受けにくいことが示唆されています。
  • 分析では例外も見られ、例えば「後悔」が典型的な負の感情にもかかわらず容認度を高めるなど、感情のバレンスがそのまま道徳判断に結びつかない場合があることが分かります。
  • 人間の注釈研究では、人は同様の体系的な感情によるシフトを示さないことが示され、現在のLLMの振る舞いと人間の道徳的推論の間に「アライメントのギャップ」があることを示しています。

要旨: 大規模言語モデルは、感情認識や道徳的推論を別個の能力として扱うものとして、広く研究されてきました。しかし、感情が道徳判断にどの程度影響するのかは、十分に検討されていません。本研究では、感情を道徳的状況に注入する感情誘導パイプラインを開発し、複数のデータセットとLLMにわたって道徳的受容性がどのように変化するかを評価します。その結果、方向性のあるパターンが観察されました。すなわち、ポジティブな感情は道徳的受容性を高め、ネガティブな感情はそれを低下させます。そして、この効果は最大20%のケースで二値の道徳判断を逆転させるほど強く、またモデルの能力に対して感受性が逆比例して増減することが分かりました。さらに分析により、特定の感情が、その快・不快(バレンス)が示唆する挙動とは逆に振る舞うことがある場合も明らかになりました(例:後悔は逆説的に受容性を高める)。補完的な人手による注釈研究では、人間がこのような体系的な変化を示さないことが確認され、現在のLLMには「アラインメントのギャップ」があることを示しています。