多言語幻覚ベンチマーク：MultiWikiQHalluA

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

新たなarXiv論文は、英語中心の幻覚評価しか行われていないという課題に対処するため、多言語の幻覚ベンチマーク（MultiWikiQHalluA）を提案しています。
本研究では「忠実性（faithfulness）の幻覚」を、与えられた入力と食い違う、または内部的に矛盾しているにもかかわらず、流暢でもっともらしいモデル出力として定義し、MultiWikiQAとLettuceDetectフレームワークを用いて合成の幻覚データセットを306言語分作成します。
30の欧州言語についてトークン単位の幻覚判別器を学習し、英語、デンマーク語、ドイツ語、アイスランド語の一部言語で幻覚率を評価します。
結果として、小型モデルQwen3-0.6Bは幻覚率が特に高く（少なくとも1つの幻覚を含む回答が最大60%、ピークはアイスランド語）、一方で大きなモデルでは一般に幻覚が低下することが示されます。
幻覚率は低リソース言語ほど一貫して高く、言語のカバー範囲や資源の有無がモデルの忠実性に大きく影響することが示唆されます。

要旨: ほとんどの幻覚（ハルシネーション）評価は英語に焦点を当てており、その結果が、資源の少ない言語にも転移するのかは不明なままです。本研究では、提供された入力から逸脱している、または内部的に一貫していないにもかかわらず、流暢でもっともらしく生成されるモデル生成内容として定義される「信頼性の幻覚（faithfulness hallucinations）」を調査します。多言語のMultiWikiQAデータセットを活用し、LettuceDetectフレームワークを用いて306言語のための合成幻覚データセットを作成し、そこから30の欧州言語に対するトークンレベルの幻覚分類器を学習します。本研究では、モデルの幻覚に関する評価を、言語の一部として英語、デンマーク語、ドイツ語、アイスランド語で提示します。これらの分類器を用いて、Qwen3-0.6B、Qwen3-14B、Gemma-3-12B-IT、cogito-v1-preview-qwen-32B、cogito-v1-preview-llama-70Bの幻覚率を評価します。私たちの分類器は、Qwen3-0.6Bで著しく高い幻覚率が見られることを示しており（少なくとも1つの幻覚を含む回答が最大60%で、アイスランド語でピーク）、また一般により大規模なモデルほど幻覚率は低いことが確認されます。多くの言語で最良の性能を示したのは、cogito-v1-preview-qwen-32B と cogito-v1-preview-llama-70Bです。幻覚率は、資源の少ない言語ほど一貫して高くなり、特にアイスランド語で顕著です。