ヘイトスピーチ検出タスクにおける現代的な多言語テキスト埋め込み手法の比較

arXiv cs.CL / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本研究は、多言語かつ低リソース環境で、現代的な多言語センテンス埋め込みがヘイトスピーチ検出にどれほど有効かを、リトアニア語・ロシア語・英語に焦点を当てて評価します。
リトアニア語のヘイトスピーチコーパス「LtHate」を新たに導入し、potion・gemma・bge・snow・jina・e5の6つの多言語エンコーダを統一したPythonパイプラインでベンチマークします。
各埋め込み方式について、1クラスのHBOS異常検知と2クラスのCatBoost教師あり分類を比較し、さらに64次元へのPCA圧縮の有無も検討します。
全データセットで、2クラスの教師ありモデルが1クラスの異常検知を一貫して大きく上回り、リトアニア語で最大80.96%（AUC 0.887）、ロシア語で最大92.19%（AUC 0.978）、英語で最大77.21%（AUC 0.859）を達成します。
PCA圧縮は教師あり設定では識別力をほぼ保つ一方、教師なしの異常検知では効果低下につながる場合があることが示されます。