The Enforcement and Feasibility of Hate Speech Moderation on Twitter
arXiv cs.CL / 4/15/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 複数言語(8言語)の訓練済みアノテータによって約54万ツイートを注釈し、Xのヘイトスピーチ対策がどれほど一貫して運用されているかをグローバル監査した。
- 投稿から5か月経過しても、ヘイトと判定されたツイートの約80%がオンラインに残存しており、明確に暴力を含むヘイト表現も含まれていた。
- ヘイトツイートは非ヘイトツイートと比べて削除されやすさに差がなく、深刻度や可視性の増加によっても除去確率は上がらなかった。
- 自動検知は偽陽性の増大なしにヘイトを確実に特定できない一方で、人手レビュー向けに「起こりそうな違反」を優先順位付けすることで運用を改善できることを示した。
- 人×AIのモデレーション・パイプラインをシミュレーションした結果、規制上の罰則に比べて費用を抑えつつヘイトへの接触を大幅に減らすことは経済的に可能であり、残存は技術制約だけでなく制度的なリソース配分の選択が要因だと結論づけている。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles
Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]
Reddit r/MachineLearning

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
Failure to Reproduce Modern Paper Claims [D]
Reddit r/MachineLearning
Why don’t they just use Mythos to fix all the bugs in Claude Code?
Reddit r/LocalLLaMA