AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

arXiv cs.CL / 4/3/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • AfrIFactは、10のアフリカ言語(英語含む)に対して情報検索、証拠抽出、ファクトチェックまでを一貫して扱う自動検証用データセットとして紹介されている。
  • 埋め込みモデルはクロスリンガルな検索能力が十分でないことが評価で示され、文化・ニュース文書の方が医療ドメインの文書よりも検索しやすい傾向も明らかになった。
  • LLMのアフリカ言語における多言語ファクト検証は頑健性に欠ける一方で、few-shot promptingによりAfriqueQwen-14Bの性能が最大43%向上し、タスク特化の微調整でファクトチェック精度が最大26%改善した。
  • 研究者の低リソース言語における情報検索、証拠検索、ファクトチェックの発展を促す成果として、データセット公開も含めて位置づけられている。

Abstract

Assessing the veracity of a claim made online is a complex and important task with real-world implications. When these claims are directed at communities with limited access to information and the content concerns issues such as healthcare and culture, the consequences intensify, especially in low-resource languages. In this work, we introduce AfrIFact, a dataset that covers the necessary steps for automatic fact-checking (i.e., information retrieval, evidence extraction, and fact checking), in ten African languages and English. Our evaluation results show that even the best embedding models lack cross-lingual retrieval capabilities, and that cultural and news documents are easier to retrieve than healthcare-domain documents, both in large corpora and in single documents. We show that LLMs lack robust multilingual fact-verification capabilities in African languages, while few-shot prompting improves performance by up to 43% in AfriqueQwen-14B, and task-specific fine-tuning further improves fact-checking accuracy by up to 26%. These findings, along with our release of the AfrIFact dataset, encourage work on low-resource information retrieval, evidence retrieval, and fact checking.