TailNLG:長い尾(ロングテール)となる実体の言い換え(verbalization)を扱う多言語ベンチマーク
arXiv cs.CL / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、知識グラフの多言語データからテキストへの言語化(verbalization)が、希少な(ロングテール)実体に不利なバイアスを持ち得ると主張しており、その結果として非専門ユーザや検索拡張生成(RAG)システムにとっての利用可能性が制限される。
- 英語・イタリア語・スペイン語の新しい多言語ベンチマーク「TailNLG」を導入する。これはWikidataから構築され、実体の人気度を体系的に変化させることで、ロングテール効果の研究を目的としている。
- 本研究では、ゼロショット設定で大規模言語モデルの3つの系統を評価し、その結果、ロングテール実体に対する一貫したバイアスが見られることを示す。具体的には、埋め込みベースのスコアが低く、希少アイテムではモデルの不確実性が高い。
- ロングテール・バイアスの大きさはモデルと言語によって異なることを示す。さらに、既存の評価指標はこれらの差を確実に反映しない可能性があるため、より良い評価手法が求められることを動機づける。



