事実を超えて:大規模言語モデルにおける分布的読解理解のベンチマーク

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、事実に基づく(根拠が局所にある)質問に答える能力だけでなく、大規模言語モデルが分布的読解理解(distributional reading comprehension)に答えられる能力を検証するためのベンチマーク「Text2DistBench」を提案する。
  • Text2DistBenchは、映画や音楽のエンティティに関する実世界のYouTubeコメントから構築され、エンティティのメタデータと関連コメントをモデルに与えたうえで、母集団レベルの傾向(例:感情の割合、最頻・次点で頻出のトピック)を推論させる。
  • ベンチマークのデータ構築パイプラインは完全に自動化されており、時間の経過に伴って新たに出現するエンティティを継続的に追加することで、信頼性の高い縦断的評価を可能にする。
  • 複数のLLMに対して行った実験では、モデルがランダムなベースラインを上回る一方で、分布の種類や特性によって性能が大きく異なることが示され、強みと限界の両方が明らかになる。
  • 著者らはText2DistBenchを、LLMにおける分布的知識推論に焦点を当てた今後の研究のための、スケーラブルな実験基盤(テストベッド)として位置づけている。

Abstract

ほとんどのLLM向け読解理解ベンチマークは、特定のテキスト証拠を局所化することで答えられる事実情報に焦点を当てていますが、多くの実世界のタスクでは、人口規模での傾向や、テキスト集合の中で表明されている嗜好といった分布に関する情報の理解が必要になります。私たちは、自然言語から分布に関する知識を推論するLLMの能力を評価するための読解理解ベンチマークであるText2DistBenchを導入します。映画や音楽のエンティティに関する実世界のYouTubeコメントをもとに構築されたこのベンチマークは、モデルにエンティティのメタデータと関連するコメントを提供し、肯定的・否定的コメントの割合を推定することや、視聴者の間で議論されている話題のうち最も多いものと次点のものを特定するといった分布に関する質問に答えることを求めます。信頼性の高い長期評価を支えるため、Text2DistBenchの構築パイプラインは完全に自動化されており、時間の経過とともに新たに出現するエンティティを取り込むよう継続的に更新されます。複数のLLMに対する実験では、多くのモデルがランダムなベースラインを大幅に上回る一方で、性能は分布の種類や特性によって大きくばらつくことが示されました。これらの結果は、分布に基づく読解理解における現行LLMの能力と限界の双方を浮き彫りにするとともに、Text2DistBenchが将来の研究に向けた実用的でスケーラブルなテストベッドとして価値を持つことを示しています。