Twitterにおけるヘイトスピーチ・モデレーションの強制力と実現可能性

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 複数言語(8言語)の訓練済みアノテータによって約54万ツイートを注釈し、Xのヘイトスピーチ対策がどれほど一貫して運用されているかをグローバル監査した。
  • 投稿から5か月経過しても、ヘイトと判定されたツイートの約80%がオンラインに残存しており、明確に暴力を含むヘイト表現も含まれていた。
  • ヘイトツイートは非ヘイトツイートと比べて削除されやすさに差がなく、深刻度や可視性の増加によっても除去確率は上がらなかった。
  • 自動検知は偽陽性の増大なしにヘイトを確実に特定できない一方で、人手レビュー向けに「起こりそうな違反」を優先順位付けすることで運用を改善できることを示した。
  • 人×AIのモデレーション・パイプラインをシミュレーションした結果、規制上の罰則に比べて費用を抑えつつヘイトへの接触を大幅に減らすことは経済的に可能であり、残存は技術制約だけでなく制度的なリソース配分の選択が要因だと結論づけている。

要旨: オンラインのヘイトスピーチは重大な社会的害悪と結び付いているものの、プラットフォームがヘイトスピーチ方針をどれほど一貫して施行しているのか、また施行が大規模に実行可能なのかは、いまだ不明である。本研究では、(現在はXである)Twitterにおけるヘイトスピーチのモデレーションに関する世界規模の監査を通じて、これらの問いに取り組む。公開ツイートの24時間分の完全なスナップショットを用い、8つの主要言語にわたって訓練された注釈者がヘイトスピーチとして注釈付けした54万ツイートからなる代表的サンプルを構築した。投稿から5か月後も、明示的に暴力的なヘイトスピーチを含め、憎悪のあるツイートの80%がオンラインに残っている。これらのツイートは、非ヘイトのツイートと比べて削除されやすいわけではなく、深刻度や可視性が上がっても、削除される可能性は高まらない。次に、これらの施行ギャップが、大規模モデレーション・システムの技術的な限界を反映しているのかどうかを検討する。完全に自動化された検出システムは、多数の誤検知(偽陽性)を生み出さずにヘイトスピーチを確実に特定することはできない一方で、起こりそうな違反を人間による審査のために効果的に優先順位付けできる。人間-AIによるモデレーションのパイプラインを想定したシミュレーションでは、既存の規制上のペナルティを下回るコストで、ヘイトスピーチへのユーザの曝露を大幅に減らすことが経済的に可能であることが示される。これらの結果は、オンライン上のヘイトの継続が技術的制約だけでは説明できず、モデレーション資源の配分に関する制度的な選択もまた反映していることを示唆している。

Twitterにおけるヘイトスピーチ・モデレーションの強制力と実現可能性 | AI Navigate