構成要素の総和を超えて:マルチモーダルなヘイトスピーチ検出における意図のシフトを解読する

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストと画像の相互作用によって有害な意図が単一のモダリティだけではなく現れる可能性がある、マルチモーダルなソーシャルメディアのヘイトスピーチ検出の難しさに取り組む。
  • 単純な二値分類を、意味的な意図のシフトに焦点を当てたきめ細かな枠組みに置き換え、善意に見える手がかり同士が組み合わさって暗黙のヘイトを形成する場合や、言語と視覚が毒性を反転または中和する場合などを扱う。
  • 著者らは、露骨なスラングではなくモダリティ間の相互作用に基づいて真の意図が決まるよう設計された H-VLI(Hate via Vision-Language Interplay)ベンチマークを導入する。
  • これに対処するため、彼らは「エージェントによる討論(agent debate)」の枠組みである ARCADE を提案し、裁判を模した議論をシミュレートすることで、判決を下す前により深い意味的手がかりをモデルに精査させる。
  • 実験の結果、ARCADE は H-VLI ベンチマークの難しい暗黙ケースにおいて大幅に性能を改善しつつ、既存のヘイトスピーチベンチマークにおいても競争力を維持していることが示され、コード/データは公開されている。

Abstract

ソーシャルメディア上のヘイトスピーチに対抗することはサイバー空間の安全確保にとって重要ですが、その多くは自動検出システムの有効性に大きく依存しています。コンテンツの形式が進化するにつれ、ヘイトスピーチは単なる平文テキストだけでなく、複雑なマルチモーダル表現へと移行しており、暗黙の攻撃が見抜きにくくなっています。しかし現行のシステムは、各モダリティを単に集計することで得られる意味を超えて、マルチモーダルな内容から立ち上がる新たな意味を扱う必要があるため、この種の微妙なケースでしばしばつまずきます。こうしたギャップを埋めるために、我々は二値分類を超えて、モダリティが相互作用することで、無害な手掛かりから暗黙のヘイトが構築されたり、意味の反転によって毒性が中和されたりするような「意味的意図の変化」を特徴づけます。この精緻な定式化に導かれて、我々は Hate via Vision-Language Interplay(H-VLI)ベンチマークを構築します。そこでは、真の意図が、露骨な視覚的スラーやテキスト上の侮蔑語ではなく、モダリティ間の複雑な相互作用にかかっています。これらの複雑な手掛かりを効果的に読み解くため、さらに我々は Asymmetric Reasoning via Courtroom Agent DEbate(ARCADE)という枠組みを提案します。告発と弁護のためにエージェントが能動的に議論する司法手続きのプロセスをシミュレートすることで、ARCADEはモデルに評決に至る前に深い意味の手掛かりを精査させます。大規模な実験の結果、ARCADEはH-VLIにおいて最先端のベースラインを大幅に上回ることが示されました。特に困難な暗黙ケースで顕著でありながら、確立されたベンチマーク上でも競争力のある性能を維持しています。コードとデータは以下で公開されています: https://github.com/Sayur1n/H-VLI