長文要約における事実整合性メトリクスのストレステスト

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長文要約で参照なしの事実整合性（factual consistency）メトリクスを評価すると、長さの制約や長距離依存の影響で従来の指標が機能しにくい点に着目し、6つの代表的メトリクスの信頼性を体系的に検証する。
要約の意味を保った7種類の摂動（言い換え、簡略化、同義語置換、論理的に同値な否定、語彙削減、圧縮、ソース文挿入）を用いてロバスト性を調べ、検索（retrieval）コンテキストや主張の情報密度に対する感度も分析する。
科学小説、法律、科学という3つの長文ベンチマークでの結果から、短文向けに提案された既存メトリクスは意味的に同等な要約に対してスコアが一致せず、情報密度の高い主張では信頼性が低下することが示される。
検索コンテキストを広げると一部の領域で安定性が改善する場合はあるものの、長文コンテキスト下で事実整合性を一貫して維持できるメトリクスは見つからない。
著者らは、マルチスパン推論、コンテキストに応じたキャリブレーション、意味保存的な変形に基づく学習による頑健化など、事実性評価の改善方向を具体的に提示し、再現用コードとデータ一式を公開している。