広告

TailNLG:長い尾(ロングテール)となる実体の言い換え(verbalization)を扱う多言語ベンチマーク

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、知識グラフの多言語データからテキストへの言語化(verbalization)が、希少な(ロングテール)実体に不利なバイアスを持ち得ると主張しており、その結果として非専門ユーザや検索拡張生成(RAG)システムにとっての利用可能性が制限される。
  • 英語・イタリア語・スペイン語の新しい多言語ベンチマーク「TailNLG」を導入する。これはWikidataから構築され、実体の人気度を体系的に変化させることで、ロングテール効果の研究を目的としている。
  • 本研究では、ゼロショット設定で大規模言語モデルの3つの系統を評価し、その結果、ロングテール実体に対する一貫したバイアスが見られることを示す。具体的には、埋め込みベースのスコアが低く、希少アイテムではモデルの不確実性が高い。
  • ロングテール・バイアスの大きさはモデルと言語によって異なることを示す。さらに、既存の評価指標はこれらの差を確実に反映しない可能性があるため、より良い評価手法が求められることを動機づける。

Abstract

構造化された知識の自動な言語化は、ナレッジグラフを非専門家のユーザにとって利用可能にし、リトリーバル拡張型生成システムを支えるための重要な課題である。近年、Data-to-Text生成の発展により多言語対応は改善してきたが、まれな実体の言語化に潜在するバイアスにはほとんど注目が払われていない。これはしばしばロングテール(長い尾)実体として知られる。本研究では、Data-to-Text生成におけるロングテール実体に関する最初の体系的な研究を提示する。英語・イタリア語・スペイン語の新しい多言語ベンチマークであるTailNLGを導入する。TailNLGはWikidataから構築され、人気度のさまざまなレベルの実体を対象としている。ゼロショット設定で、3つの異なる系列の大規模言語モデルを評価し、まれな実体と一般的な実体での性能を比較する。さらに、確立されたWebNLGベンチマークに対する比較も行う。結果は、ロングテール実体に対して一貫したバイアスが存在することを明らかにする。すなわち、埋め込み(embedding)に基づくスコアは低く、まれな実体ではモデルの不確実性が高い。加えて、ロングテール実体の影響はモデルと言語によって異なること、そして既存の評価指標がこれらの違いを一貫して捉えられていないことを示す。これにより、より信頼性の高い評価フレームワークが必要であることが浮き彫りになる。

広告