The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation
arXiv cs.AI / 4/2/2026
💬 OpinionTools & Practical UsageModels & Research
Key Points
- 複数言語対応で、Wikipedia/Wikidata を用いてドメイン、地理、人気度などを指定してエンティティ集合を生成する設定可能なパイプラインを提案しています。
- その具体例として RiDiC データセットを公開し、河川・自然災害・車種の3ドメインから合計3,000件のエンティティを人気度の異なるティアで構成しています。
- 各エンティティには地理情報や英語/中国語名、関連する英語/中国語Wikipedia本文が付与され、LLMの長文生成における事実性評価の材料として利用できるようになっています。
- 英語・中国語の3種のLLMで生成を行い、第三者の事実性チェッカーで評価した結果、RiDiCのエンティティに関する生成ではフロンティアモデルでもハルシネーションが発生しうることを示しています。
- 多言語の長文事実性評価を容易にするため、コード、データ、生成/評価スクリプトを公開したと述べています。
Related Articles

Black Hat USA
AI Business

Black Hat Asia
AI Business

Did you know your GIGABYTE laptop has a built-in AI coding assistant? Meet GiMATE Coder 🤖
Dev.to

I Built a Local-First AI Knowledge Base for Developers — Here's What Makes It Different
Dev.to

Benchmarking Batch Deep Reinforcement Learning Algorithms
Dev.to