多言語ヘイトスピーチ検出と対抗発言生成：包括的な調査と実践ガイド

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本調査は多言語のヘイトスピーチ検出と対抗発言生成を概観し、非英語およびコード混在の文脈における英語中心の単言語アプローチの限界を強調する。
タスク設計、データキュレーション、評価の三段階の枠組みを概説し、現在のデータセット・モデル・指標を用いて文脈認識性と包摂性を備えたヘイトスピーチシステムの開発を導く。
低資源言語におけるデータ不足、公平性と偏りの考慮、マルチモーダル解決策の必要性といったオープンな課題を指摘し、システム設計における倫理的・文化的配慮を呼びかける。
研究者・実務者・政策立案者が、多様な言語環境において効果的な検出と対抗発言を実現し、より安全なオンラインエコシステムを構築するための拡張性のあるガイドラインを提供する。

要旨：多言語設定におけるオンラインのヘイトスピーチ対策には、英語中心のモデルを超え、世界のオンライン言説の文化的・言語的多様性を捉えるアプローチが必要です。本論文は、多言語ヘイトスピーチ検出とカウンタースピーチ生成に関する包括的な調査と実践ガイドを、自然言語処理の最近の進歩を取り込みつつ提示します。我々は、英語以外の文脈やコード混合文脈において、単言語システムがなぜしばしば失敗し、含意される憎悪表現や文化的特有の表現を見逃してしまうのかを分析します。これらの課題に対処するため、タスク設計、データ選定、評価の三段階からなる構造化フレームワークを、最先端のデータセット、モデル、指標を活用して描き出します。本調査は、多言語リソースと技術の進歩を統合しつつ、低資源言語におけるデータ不足、公平性とシステム開発における偏り、マルチモーダル解決策の必要性といった持続的な障害を強調します。技術的な進歩と倫理・文化的配慮を結びつけることにより、研究者・実務者・政策立案者に対して、文脈を意識した包摂的なシステムを構築するためのスケーラブルなガイドラインを提供します。私たちのロードマップは、多様な言語環境における検出の公正性と、より効果的なカウンタースピーチ生成を通じて、オンラインの安全性を高めることに寄与します。