憎悪の彼方へ:マルチモーダル・コンテンツモデレーションにおける無礼と不寛容な発話の識別
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルの毒性ベンチマークが過度に粗いのは、単一の「憎悪(hatefulness)」ラベルに依存しており、そのラベルが語調(無礼さ)と内容(不寛容)を混同しているためだと主張している。
- 無礼(失礼・見下すような語調)と不寛容(多元性を攻撃し、集団やアイデンティティを標的にすること)を分離する、きめ細かな注釈(アノテーション)手法を導入し、Hateful Memesデータセットの2,030個のミームに適用している。
- 著者らは、複数の視覚言語モデルを(1)粗いラベルでの学習、(2)ラベル体系間の転移学習、(3)粗い「憎悪」ラベルと新たなきめ細かな注釈を組み合わせた共同学習、の3つの方法で評価している。
- 結果は、きめ細かなラベルを追加することで全体的なモデレーション性能が向上し、よりバランスの取れた誤りプロファイルが得られること、さらに有害コンテンツの見逃し(アンダーディテクション)が減少することを示している。
- 本研究は、粗いラベルときめ細かなラベルの両方を用いることでデータ品質を改善し、それがより信頼性の高いマルチモーダル・コンテンツモデレーション・システムへの実用的な道筋になると位置づけている。




