事実を超えて:大規模言語モデルにおける分布的読解理解のベンチマーク
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、事実に基づく(根拠が局所にある)質問に答える能力だけでなく、大規模言語モデルが分布的読解理解(distributional reading comprehension)に答えられる能力を検証するためのベンチマーク「Text2DistBench」を提案する。
- Text2DistBenchは、映画や音楽のエンティティに関する実世界のYouTubeコメントから構築され、エンティティのメタデータと関連コメントをモデルに与えたうえで、母集団レベルの傾向(例:感情の割合、最頻・次点で頻出のトピック)を推論させる。
- ベンチマークのデータ構築パイプラインは完全に自動化されており、時間の経過に伴って新たに出現するエンティティを継続的に追加することで、信頼性の高い縦断的評価を可能にする。
- 複数のLLMに対して行った実験では、モデルがランダムなベースラインを上回る一方で、分布の種類や特性によって性能が大きく異なることが示され、強みと限界の両方が明らかになる。
- 著者らはText2DistBenchを、LLMにおける分布的知識推論に焦点を当てた今後の研究のための、スケーラブルな実験基盤(テストベッド)として位置づけている。



