広告

憎悪の彼方へ:マルチモーダル・コンテンツモデレーションにおける無礼と不寛容な発話の識別

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルの毒性ベンチマークが過度に粗いのは、単一の「憎悪(hatefulness)」ラベルに依存しており、そのラベルが語調(無礼さ)と内容(不寛容)を混同しているためだと主張している。
  • 無礼(失礼・見下すような語調)と不寛容(多元性を攻撃し、集団やアイデンティティを標的にすること)を分離する、きめ細かな注釈(アノテーション)手法を導入し、Hateful Memesデータセットの2,030個のミームに適用している。
  • 著者らは、複数の視覚言語モデルを(1)粗いラベルでの学習、(2)ラベル体系間の転移学習、(3)粗い「憎悪」ラベルと新たなきめ細かな注釈を組み合わせた共同学習、の3つの方法で評価している。
  • 結果は、きめ細かなラベルを追加することで全体的なモデレーション性能が向上し、よりバランスの取れた誤りプロファイルが得られること、さらに有害コンテンツの見逃し(アンダーディテクション)が減少することを示している。
  • 本研究は、粗いラベルときめ細かなラベルの両方を用いることでデータ品質を改善し、それがより信頼性の高いマルチモーダル・コンテンツモデレーション・システムへの実用的な道筋になると位置づけている。

Abstract

現在のマルチモーダルな毒性(toxic)ベンチマークは、一般に単一の二値的な憎悪(hatefulness)ラベルを用いています。この粗いアプローチは、表現の本質的に異なる2つの特性、すなわち口調と内容を混同しています。コミュニケーション科学の理論に基づき、本研究では、表現を2つの切り離し可能な次元に分けるきめ細かなアノテーション手法を導入します。それは、無礼(incivility:失礼または見下すような口調)と、不寛容(intolerance:多元主義を攻撃し、集団やアイデンティティを標的とする内容)です。そして、この手法を「Hateful Memes」データセットの2,030個のメメに適用します。私たちは、粗いラベルでの学習、ラベル体系間での転移学習、ならびに粗い憎悪ラベルと本研究のきめ細かなアノテーションを組み合わせる共同学習アプローチのもとで、さまざまな視覚言語モデルを評価します。その結果、きめ細かなアノテーションは既存の粗いラベルを補完し、両者を併用すると全体のモデル性能が向上することが分かりました。さらに、きめ細かなスキームで学習したモデルは、モデレーション(moderation)に関連するエラーがよりバランスよく現れ、憎悪ラベルのみで学習したモデルよりも有害な内容の見逃し(under-detection)が起こりにくいことが示されました(FNR-FPR、すなわち偽陰性率と偽陽性率の差:LLaVA-1.6-Mistral-7Bで0.74から0.42、Qwen2.5-VL-7Bで0.54から0.28)。本研究は、データ品質の向上によってモデレーションシステムの信頼性と精度を高めることで、コンテンツモデレーションにおけるデータ中心型アプローチに貢献します。総じて、粗いラベルときめ細かなラベルの両方を組み合わせることで、より信頼性の高いマルチモーダルなモデレーションへの実用的な道筋が得られます。

広告