The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation

arXiv cs.AI / 4/2/2026

💬 OpinionTools & Practical UsageModels & Research

Key Points

  • 複数言語対応で、Wikipedia/Wikidata を用いてドメイン、地理、人気度などを指定してエンティティ集合を生成する設定可能なパイプラインを提案しています。
  • その具体例として RiDiC データセットを公開し、河川・自然災害・車種の3ドメインから合計3,000件のエンティティを人気度の異なるティアで構成しています。
  • 各エンティティには地理情報や英語/中国語名、関連する英語/中国語Wikipedia本文が付与され、LLMの長文生成における事実性評価の材料として利用できるようになっています。
  • 英語・中国語の3種のLLMで生成を行い、第三者の事実性チェッカーで評価した結果、RiDiCのエンティティに関する生成ではフロンティアモデルでもハルシネーションが発生しうることを示しています。
  • 多言語の長文事実性評価を容易にするため、コード、データ、生成/評価スクリプトを公開したと述べています。

Abstract

We present a configurable pipeline for generating multilingual sets of entities with specified characteristics, such as domain, geographical location and popularity, using data from Wikipedia and Wikidata. These datasets are intended for evaluating the factuality of LLMs' long-form generation, thereby complementing evaluation based on short-form QA datasets. We present the RiDiC dataset as an example of this approach. RiDiC contains 3,000 entities from three domains -- rivers, natural disasters, and car models -- spanning different popularity tiers. Each entity is accompanied by its geographical location, English and Chinese names (if available) and relevant English and Chinese Wikipedia content, which is used to evaluate LLMs' responses. Generations about RiDiC entities were obtained from three LLMs in English and Chinese. These were then evaluated using a third-party factuality checker, which showed that entities from our dataset caused even frontier models to hallucinate. To facilitate the evaluation of LLMs' long-form factuality in multiple languages, the code, data, and generation/evaluation scripts have been released.

The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation | AI Navigate