意見の不一致を学ぶ:DiADEMによる注釈者分布のモデリングにおける人口統計的重要度重み付け

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主観的コンテンツにおける注釈者間の不一致は構造化されており、単なるランダムなノイズではなく、人口統計や視点に基づく差異を反映していると主張する。
  • 連鎖的思考(chain-of-thought)によるプロンプトを含む、判定者として用いるLLMベースの手法は、人間の不一致の背後にある構造を回復するのが難しいことを見出す。
  • 著者らはDiADEMを提案する。DiADEMは、学習されたベクトル \(\boldsymbol{\alpha}\) を通じて人口統計軸の重要度を学習し、注釈者表現と項目表現を結合することで相互作用メカニズムと、不一致を考慮した学習損失によって不一致をモデル化するニューラルアーキテクチャである。
  • DICESの会話の安全性ベンチマークおよびVOICEDの政治的な攻撃性ベンチマークでの実験により、DiADEMは従来の「LLM-as-a-judge」およびニューラル基準を大幅に上回り、強力な不一致追跡を達成する(例:DICESで \(r=0.75\))。
  • 学習された重要度重みは、人種と年齢が両データセットにおいて不一致に影響を与える最も強い人口統計要因の一つとして一貫して現れることを示しており、「誰が注釈者であるか」を明示的にモデル化する必要性を強調している。

Abstract

人は主観的な内容にラベルを付ける際に意見が食い違い、その食い違いはノイズではありません。それは、注釈者の社会的アイデンティティや生活経験によって形成される、視点の本質的な違いを反映しています。しかし標準的な手法では、これらの判断が単一の多数派ラベルへと平坦化されてしまいます。また、近年のLLMベースのアプローチも同様にうまくいきません。私たちは、チェーン・オブ・ソート推論を用いたとしても、プロンプト付きの大規模言語モデルが、人間の意見の不一致の構造を復元できないことを示します。私たちはDiADEMを提案します。これは、誰がどのような点で食い違うのか、そしてそれがどの程度のものかを予測するために「各人口統計的軸がどれほど重要か」を学習するニューラル・アーキテクチャです。DiADEMは、学習された重要度ベクトルoldsymbol{\alpha}によって制御される、人口統計ごとの射影(per-demographic projections)により注釈者を符号化し、補完的な連結(complementary concatenation)とハダマール積(Hadamard interactions)によって注釈者とアイテム表現を統合します。さらに、アイテム単位の新しい不一致損失によって学習し、誤って予測された注釈の分散を直接的に罰します。会話の安全性に関するDICESベンチマーク、および政治的な不快表現に関するVOICEDベンチマークにおいて、DiADEMは、LLMを裁定者(LLM-as-a-judge)として用いる手法とニューラル・モデルのベースラインの両方を、大域的指標と展望主義的(perspectivist)指標の双方において大幅に上回ります。強い不一致追跡を達成しています(DICESでr{=}0.75)。学習されたoldsymbol{\alpha}の重みは、レース(人種)と年齢が、両データセットにわたって注釈者間の不一致を生み出す最も影響力の大きい人口統計要因として一貫して現れることを示しています。これらの結果は、注釈者が「何を」ラベル付けするのかだけでなく「誰であるのか」を明示的にモデリングすることが、人間の解釈の多様性を忠実に表現しようとするNLPシステムにとって不可欠であることを示しています。