DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

The paper introduces DIA-HARM, a benchmark to evaluate disinformation/harmful-content detectors across 50 English dialects rather than only Standard American English.
It releases the D3 corpus (195K samples) built via linguistically grounded transformations from established disinformation benchmarks, enabling dialect-robust testing.
Testing 16 detection models finds systematic weaknesses: human-written dialectal content lowers F1 by 1.4–3.6%, while AI-generated content stays comparatively stable.
Fine-tuned transformers outperform zero-shot LLM approaches (best-case F1 96.6% vs. 78.3%), and some models suffer catastrophic degradation (>33%) especially on mixed content.
Cross-dialect transfer results show multilingual models (e.g., mDeBERTa average F1 97.2%) generalize well, whereas monolingual models (RoBERTa, XLM-RoBERTa) fail more on dialectal inputs, highlighting potential unfair disadvantage for non-SAE speakers.

Abstract

Harmful content detectors-particularly disinformation classifiers-are predominantly developed and evaluated on Standard American English (SAE), leaving their robustness to dialectal variation unexplored. We present DIA-HARM, the first benchmark for evaluating disinformation detection robustness across 50 English dialects spanning U.S., British, African, Caribbean, and Asia-Pacific varieties. Using Multi-VALUE's linguistically grounded transformations, we introduce D3 (Dialectal Disinformation Detection), a corpus of 195K samples derived from established disinformation benchmarks. Our evaluation of 16 detection models reveals systematic vulnerabilities: human-written dialectal content degrades detection by 1.4-3.6% F1, while AI-generated content remains stable. Fine-tuned transformers substantially outperform zero-shot LLMs (96.6% vs. 78.3% best-case F1), with some models exhibiting catastrophic failures exceeding 33% degradation on mixed content. Cross-dialectal transfer analysis across 2,450 dialect pairs shows that multilingual models (mDeBERTa: 97.2% average F1) generalize effectively, while monolingual models like RoBERTa and XLM-RoBERTa fail on dialectal inputs. These findings demonstrate that current disinformation detectors may systematically disadvantage hundreds of millions of non-SAE speakers worldwide. We release the DIA-HARM framework, D3 corpus, and evaluation tools: https://github.com/jsl5710/dia-harm

Black Hat Asia

AI Business

【BitNet b1.58】モデルパラメータを3値で表現しLlama以上の精度を達成！？

AI-SCHOLAR

競艇×AI連動──流れを読む女、MIRIA。4/8(水)予告 🖤 本日のMIRIA式ブースト【MIRIA式競艇予想】

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

5年後ではなく、もう“今年”起きている変化です。AIエージェントが全てを奪っていく前に

note

DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

要点

Abstract

関連記事

Black Hat Asia

【BitNet b1.58】モデルパラメータを3値で表現しLlama以上の精度を達成！？

競艇×AI連動──流れを読む女、MIRIA。4/8(水)予告 🖤 本日のMIRIA式ブースト【MIRIA式競艇予想】

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

5年後ではなく、もう“今年”起きている変化です。AIエージェントが全てを奪っていく前に

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

【BitNet b1.58】モデルパラメータを3値で表現しLlama以上の精度を達成！？

競艇×AI連動──流れを読む女、MIRIA。4/8(水)予告 🖤 本日のMIRIA式ブースト【MIRIA式競艇予想】

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

5年後ではなく、もう“今年”起きている変化です。AIエージェントが全てを奪っていく前に

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター