SCURank:Summary Content Units(SCU)を用いて複数候補要約をランキングし、要約性能を高める手法

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、SCURankという要約ランキングのフレームワークを提案し、要約候補の評価にSummary Content Units(SCU)を用いることで、安定しないLLMベース比較やROUGEのような表面的な一致度合いに依存しないようにしています。
  • SCURankは、要約に含まれる情報の豊富さと意味的重要性に基づいて評価することで、より信頼性の高いランキングと高品質な要約を目指します。
  • 論文では、SCURankを複数の多様なLLMからの要約蒸留の文脈で検証し、従来の評価指標や既存のLLMベースランキング手法よりも優れた性能を示しています。
  • また、SCURankにより多様なLLMが生成した要約を取り込むことで、抽象性(abstractiveness)と蒸留モデル全体の性能が向上することを示しています。
  • さらに、再現や発展のためにSCURankのコードがGitHubで公開されています。

要旨: BART などの小型言語モデル(SLM)は、蒸留によって、大型言語モデル(LLM)に匹敵する要約性能を達成できます。しかし、要約候補に対する既存の LLM ベースのランキング戦略は不安定さを抱えている一方で、古典的な指標(例: ROUGE)では高品質な要約を順位付けするのに不十分です。これらの課題に対処するため、
\textbf{SCURank} を提案します。これは
\textbf{Summary Content Units(SCU:要約内容ユニット)} を活用することで要約を強化する枠組みです。SCURank は、不安定な比較や表面的な語の重なりに頼るのではなく、情報内容の豊かさと意味的な重要性に基づいて要約を評価します。我々は、多様な複数の LLM から要約を蒸留する際における SCURank の有効性を検証します。実験結果は、SCURank が、評価指標とデータセットにまたがって、従来の指標および LLM ベースのランキング手法を上回ることを示しています。さらに、複数の LLM からの多様な要約を取り入れることで、モデルの抽象性が高まり、蒸留されたモデル全体の性能が向上することを我々の知見は示しており、多-LLM 蒸留における情報中心のランキングの利点が裏付けられます。SCURank のコードは https://github.com/IKMLab/SCURank で公開されています。