広告

RiDiCの年代記:人気度分布を制御して長文の事実性評価用データセットを生成する

arXiv cs.AI / 2026/4/2

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 複数言語に対応し、Wikipedia/Wikidata を用いて、ドメイン、地理、人気度などを指定することでエンティティ集合を生成できる設定可能なパイプラインを提案しています。
  • 具体例として RiDiC データセットを公開し、河川・自然災害・車種の3つのドメインから合計3,000件のエンティティを、人気度の異なるティアで構成しています。
  • 各エンティティには地理情報や英語/中国語名、関連する英語/中国語のWikipedia本文が付与されており、LLMによる長文生成における事実性評価の材料として利用できるようになっています。
  • 英語・中国語の3種類のLLMで生成を行い、第三者の事実性チェッカーで評価した結果、RiDiCのエンティティに関する生成では、フロンティアモデルであってもハルシネーションが発生しうることを示しています。
  • 多言語の長文事実性評価を容易にするため、コード、データ、生成/評価スクリプトを公開していると述べています。

要旨: WikipediaおよびWikidataのデータを用いて、領域、地理的位置、人気度などの指定された特性を持つ多言語のエンティティ集合を生成するための、構成可能なパイプラインを提示します。これらのデータセットは、短文形式のQAデータセットに基づく評価を補完するものであり、LLMの長文生成における事実性を評価することを目的としています。このアプローチの例としてRiDiCデータセットを提示します。RiDiCには、3つの領域――河川、自然災害、自動車モデル――からなる3,000のエンティティが含まれており、異なる人気度の階層にまたがっています。各エンティティには、地理的位置、英語および中国語名(利用可能な場合)、および関連する英語・中国語のWikipediaコンテンツが付随しており、これを用いてLLMの応答を評価します。RiDiCのエンティティに関する生成は、英語および中国語の3つのLLMから得られました。これらは第三者の事実性チェッカーを用いて評価され、その結果、私たちのデータセットに含まれるエンティティは、最先端モデルでさえも幻覚を起こさせることが示されました。複数言語におけるLLMの長文事実性を評価しやすくするため、コード、データ、および生成・評価スクリプトを公開しました。

広告