LLMは感情ラベルは捉えるが感情の不確実性は捉えない:分布分析と人間—LLM判断ギャップの校正

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、従来のLLMによる感情アノテーション評価が、人間の不一致を単一の「ゴールド」ラベルに圧縮してしまい、不確実性の分布的な構造を捨てていると指摘している。
  • GoEmotionsとEmoBankの2つのベンチマークで、人間の感情判断分布と4つのゼロショットLLMおよび微調整したRoBERTaの出力分布を比較し、合計64万件のLLM応答を用いて検証した。
  • ゼロショットでは人間の分布からの乖離が大きい一方で、ギャップを埋めるのに必要なのはモデル規模の拡大ではなく、ドメイン内微調整であることが示された。
  • 語彙のグラウンディング勾配に基づく定量的な透明性スコアを提案し、明示的な語彙マーカーで感情が示される場合にはLLMがうまく捉えるが、文脈推論を要する語用論的に複雑な感情では体系的に失敗するという傾向が結論づけられている。
  • 3つの軽量な事後校正手法により、分布ギャップを最大14%まで低減でき、LLMの感情アノテーションが人手ラベリングの代替になり得る条件と、代替できない条件の指針も提示されている。