LongSumEval:長文要約のための質問応答ベース評価とフィードバック駆動の改良

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 長文要約の評価は、既存の指標が人間の判断と弱くしか相関せず、欠点を説明したり改善に結びつく具体的な指導を提供できないことがボトルネックになっている。
  • LongSumEvalは、要約の質を「質問に答えられる度合い(answerability)」と「事実整合性」に基づいて評価し、構造化された質問—回答ペアを用いて解釈可能なスコアと実行可能なフィードバックを生成する統一フレームワークを提案する。
  • QAベースの評価が生成目標から独立してしまうミスアライメントを解消することを狙い、カバレッジ不足や事実の不一致を特定する形で改善の手がかりを返す。
  • 7つのベンチマークに対するメタ評価では、既存指標よりも人間の判断との一致が大幅に強いことが示され、さらに再学習なしで自己改善(self-refinement)による品質向上が可能になる。
  • 研究の再現性のため、コードとデータセットはGitHubで公開される予定である。