EditPropBench：科学的原稿における事実編集の伝播を測定する

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、科学的原稿における依存する主張へ事実の変更がどれだけ正しく波及するかを、LLMベースの編集者で評価するためのベンチマーク「EditPropBench」を提案しています。
各ベンチマーク項目は、ML/NLP風の合成マニュスクリプトに対して狙った編集とファクトグラフを組み合わせ、文レベルのラベルで直接の対象、必要となる下流の更新、無関係として保護する本文を区別します。
より難しい暗黙的／自由記述の領域では5つのLLM編集システムの結果が大きくばらつき（ERA 0.148–0.705）、最良でも必要な連鎖更新の約30%を取りこぼします。
ストレステストと指標分析から、置換で解けるような容易なケースを含めると、LLM編集者は決定的な置換ベースラインより有利になり得る一方、信頼性の高い修正には「連鎖（カスケード）を意識した」検証が必要だと示唆されています。
近年のarXiv cs.CL論文の監査では、事実に依存する定性的主張が37.2%で見られ、非局所的な編集の影響に対応できるツールの実用上の重要性が強調されています。

要旨: 科学論文におけるローカルな事実修正は、多くの場合、非ローカルな改訂の義務を生み出します。データセットが215件から80件の文書に変更された場合でも、編集された数値は繰り返されていなくても、「中規模」や「数百件」といった主張が陳腐化する可能性があります。本研究では、LLMエディタが従属する原稿の主張を通じて事実修正をどの程度伝播させるかを測定するためのベンチマーク、EditPropBenchを導入します。各項目は、ML/NLPスタイルの合成原稿、狙いを定めた編集、および制御された事実グラフからなり、文レベルのラベルにより直接の対象、必要な下流の更新、ならびに無関係な保護対象テキストを区別します。EditPropBenchは、文レベルの依存関係の監督を備えた、原稿レベルで制御されたベンチマークであり、3つの編集プロトコル、敵対的な指標プローブ、ストレステストの派生（バリアント）、およびEdit-Ripple Adherence（ERA）を中心とした指標スイートを提供します。難しい、暗黙的／自由形式の層では、5つのLLM編集システムがERA 0.148--0.705の範囲に分布し、最良でも必要なカスケード更新の約30%を見落とします。混合層でのストレステストでは、置換で解けるような容易なケースを含めると、LLMは決定論的な置換ベースラインに対して正の優位性を保持することが示されます。最後に、最近のarXiv cs.CLのベンチマークおよびデータセット論文の監査から、事実に依存する質的主張が37.2%の論文に存在することがわかりました。EditPropBenchは、現在のLLMエディタが事実修正の多くの暗黙的な帰結を修復できることを示しますが、信頼できる科学的改訂には、カスケードを意識した検証がそれでもなお必要であることが示唆されます。