ConCISE: リファレンス不要のLLM生成回答の簡潔さ評価指標
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、金標準の参照データに依存せず、LLM生成回答の簡潔さを評価するリファレンス不要の指標を提示する。
- 簡潔さを、3つの成分で測定する:抽象的サマリーとの圧縮率、抽出的サマリーとの圧縮率、そして意味を保ちながら非本質的な語を削除する語除去圧縮スコアの3つ。
- 指標はLLM出力の冗長性を特定することを目的としており、対話型AIシステムにおけるトークンコストの削減に役立つ。
- 実験結果は、提案手法が冗長性を効果的に検出し、グラウンドトゥルースのアノテーションを必要とせず、簡潔さ評価の自動化・実用的ツールを提供することを示している。
本文: arXiv:2511.16846v2 アナウンス種別: replace
要約:大規模言語モデル(LLMs)は頻繁に、長く冗長で、冗長な詳細や不要な情報で満たされた応答を生成します。これにより、明確さとユーザーの満足度が低下し、特に出力トークン数に基づいて料金を請求する有名な独自モデルでは、モデル開発者のコストが増加します。本論文では、LLMsが生成する応答の簡潔さを評価する新規のリファレンス不要指標を導入します。我々の手法は、金標準のリファレンスに依存せず非本質的なコンテンツを定量化し、3つの計算の平均を算出します:i) 元の応答とLLMによる抽象的サマリーとの間の圧縮比;ii) 元の応答とLLMによる抽出的サマリーとの間の圧縮比;iii) 語除去圧縮、つまり意味を保ちながら応答から可能な限り非本質的な語を削除し、削除されたトークン数が簡潔さスコアを示す。実験結果は、提案手法がLLM出力の冗長性を特定し、グラウンドトゥルースの人間アノテーションを必要とせず、対話型AIシステムにおける応答の簡潔さを自動的に評価する実用的なツールを提供することを示しています。