憎悪が事実に出会うとき:ヘイトスピーチにおけるチェック対象性検出のためのLLM-in-the-Loop

arXiv cs.CL / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ヘイトスピーチに対して「チェック対象性(埋め込まれた主張がファクトチェックに値するかどうか)」を共同で付与するデータセットWSF-ARG+を公開し、ヘイト表現と誤情報の重なりに対処する。
  • 人手によるアノテーション負荷を削減しつつアノテーション品質を維持するため、12個のオープンウェイトLLMを用いたLLM-in-the-loopのアノテーション手法を提案し、広範な人手評価によって検証する。
  • 著者らは、チェック対象になり得る主張を含むヘイトスピーチは、嫌がらせおよびヘイトの強度が有意に高いことを見出す。
  • チェック対象性ラベルを取り入れることで、LLMベースのヘイトスピーチ検出性能が改善され、大規模モデルで最大0.213のmacro-F1向上(平均で0.154のmacro-F1向上)を報告している。

概要: オンライン上の憎悪に満ちたコンテンツは、特に組織的なオンライン嫌がらせキャンペーンや過激主義のプロパガンダにおいて、事実のように見える、必ずしも正しいとは限らない情報を用いて表現されることが多いです。憎悪の扇動(HS)と言い伝え/誤情報(misinformation)を共同で扱わないことは、偏見を深め、有害なステレオタイプを強化し、傍観者を心理的苦痛にさらす一方で、公的な議論を汚染します。さらに、これらのメッセージは、害の大きさと真実性、すなわち事実確認(ファクトチェック)を評価する必要があるため、コンテンツモデレーターにはより多くの労力を要します。この課題に対処するため、私たちは、憎悪の扇動と言い分(check-worthiness)情報を組み合わせた最初のデータセットであるWSF-ARG+を公開します。また、チェックすべき主張(check-worthy claims)のアノテーションを促進する新しいLLM-in-the-loopフレームワークも提案します。私たちはこのフレームワークを実行し、異なるサイズとアーキテクチャの12のオープンウェイトLLMで検証します。さらに、大規模な人手評価によって妥当性を検証し、このLLM-in-the-loopフレームワークがデータのアノテーション品質を損なうことなく、人手の負担を削減できることを示します。最後に、言い分を伴うHSメッセージは、嫌がらせや憎悪の度合いが有意に高いこと、そして言い分ラベルを組み込むことで、LLMベースのHS検出が、大規模モデルにおいて平均で最大0.213のマクロF1、さらに0.154のマクロF1まで改善されることを示します。