LLM-ReSum:自己評価によるLLMリフレクティブ要約のためのフレームワーク

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、ROUGEやBLEUのような従来の語彙一致(レキシカル)指標が、複数ドメインや文書長にまたがって要約品質に対する人間評価との相関が弱い(あるいは負になる)ことを示した。
  • タスク固有のニューラル指標やLLMベースの評価器は、人間の評価との整合性が大幅に高く、特に言語品質の評価で効果が高い。
  • これらの知見を基に、微調整(ファインチューニング)なしで、LLMによる評価と書き直しを閉ループで行う自己反省的要約フレームワーク「LLM-ReSum」を提案する。
  • 3つのドメインでの実験では、LLM-ReSumにより低品質な要約が、事実の正確性で最大33%、カバレッジで最大39%改善し、人間評価者は89%のケースで洗練された要約を好んだ。
  • さらに、法文書要約向けの新しい人手アノテーション・ベンチマーク「PatentSumEval」(専門家評価付き要約180件)も紹介し、コードとデータセットはGitHubで公開予定としている。

要旨: 大規模言語モデル(LLM)によって生成された要約の信頼性ある評価は、特に異種の領域や文書の長さにまたがる場合において、依然として未解決の課題です。私たちは、5つの領域にまたがり、短いニュース記事から長い科学・政府・法務文書(2K〜27K語)までを含む7つのデータセットに基づき、1,500件超の人手による注釈付き要約を対象として、14種類の自動要約メトリクスとLLMベースの評価器に関する包括的なメタ評価を行います。結果として、従来の語彙の重複に基づく指標(例: ROUGE、BLEU)は、人間の判断との相関が弱い、または負の相関を示す一方で、タスク固有のニューラル指標とLLMベースの評価器は、特に言語品質の評価において、はるかに高い整合性を達成することが分かりました。これらの知見を活用し、モデルのファインチューニングなしでクローズドループのフィードバックの中にLLMベースの評価と生成を統合する自己省察型要約フレームワークであるLLM-ReSumを提案します。3つの領域において、LLM-ReSumは、事実性の精度で最大33%、カバレッジで39%まで低品質な要約を改善し、人間の評価者は89%のケースで洗練された要約を好みました。さらに、法務文書の要約を対象とした新しい人手注釈ベンチマークであるPatentSumEvalを導入します。これは、専門家によって評価された180件の要約で構成されます。すべてのコードとデータセットはGitHubで公開します。