精度を超えて：長文LLM生成における事実性評価のための重要度対応型リコール

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、出力が自由形式で多くの細かな主張を含む場合に、長文LLMの事実性を評価することが難しい点に取り組む。
既存の主張ベースの評価器は精度に過度に焦点を当てており、リコール（モデルが含めるべき関連する事実をどの程度網羅しているか）をほとんど見落としていると主張する。
著者らは、外部の知識ソースから参照となる事実を生成し、それらの事実が生成テキスト内に含まれているかを確認することで、精度とリコールを同時に測定する枠組みを提案する。
評価時に関連性と重要性（salience）に基づいて事実へ優先度を付けるための重要度対応型の重み付け方式が導入される。
分析の結果、現在のLLMはリコールよりも精度が大幅に強く、長文生成における事実の不完全性が主要な制約であること、特に重要度の低い（“important”でない）事実ほどその傾向が強いことが示される。

要旨: 大規模言語モデル（LLM）によって生成された長文出力の事実性を評価することは、特に回答が自由形式で、多数の細かな事実表明を含む場合に、依然として困難です。既存の評価手法は主として適合率（precision）に焦点を当てており、応答を原子的な主張に分解して、Wikipediaのような外部知識ソースに対して各主張を検証します。しかし、これは事実性の同等に重要な側面である再現率（recall）を見落としています。すなわち、生成された応答が、含めるべき関連する事実をどれだけカバーしているかです。そこで本研究では、適合率と再現率を同時に測定する包括的な事実性評価フレームワークを提案します。本手法は外部知識ソースを活用して参照となる事実を構築し、それらが生成テキストに取り込まれているかどうかを判断します。さらに、関連性と顕著性（salience）に基づく重要度を考慮した重み付けスキームも導入します。分析の結果、現在のLLMは再現率よりも適合率で大幅に良い性能を示すことが分かりました。これは、事実の不完全さが長文生成における主要な制約であり続けていること、またモデルは一般に、関連する事実の全集合よりも、非常に重要な事実をカバーすることの方が得意であることを示唆しています。