EarlySciRev: LaTeXによる執筆トレースから抽出した初期段階の科学的改訂データセット

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

EarlySciRevは、arXivのLaTeXソースから、著者によるコメント付きの下書きトレースを用いて、初期段階の段落レベルの科学文テキスト改訂を抽出する新しいデータセットである。
この手法は、コメント付きのLaTeX断片を近傍の最終テキストと対応づけて改訂候補ペアを作成し、その後LLMベースのフィルタリングで、実際の著者による変更を反映している改訂のみを残す。
128万件の初期候補ペアから、パイプラインは58.万件の改訂ペアを検証し、最終版またはそれに極めて近い版だけを根拠にするのではなく、本物の初期執筆行動に基づく裏付けを提供する。
リリースには、改訂検出のための人手による注釈付きベンチマークも含まれており、改訂ダイナミクスの実証研究や、科学文書作成におけるLLMの評価を支援することを目的としている。
著者らは、EarlySciRevを、後期段階の改訂や合成的な書き換えに焦点を当てた既存データセットを補完するものとして位置づけ、改訂のモデリングやLLM支援による編集ワークフローに関する研究を可能にする。

概要: 科学論文の執筆は反復的なプロセスであり、豊富な改訂の痕跡を生み出します。しかしながら、一般に公開されているリソースでは、論文の最終版、またはほぼ最終版のみが提示されることが典型的です。これにより、改訂行動の実証的な研究や、科学執筆に対する大規模言語モデル（LLM）の評価が制限されています。私たちは、arXivのLaTeXソースファイルから自動的に抽出した、初期段階の科学テキスト改訂からなるデータセット EarlySciRev を導入します。私たちの重要な観察は、LaTeXにおけるコメントアウトされたテキストが、多くの場合、著者自身によって書かれた、破棄された、あるいは代替的な表現を保存しているという点です。コメント部分を近傍の最終テキストと対応付けることで、段落レベルの候補となる改訂ペアを抽出し、LLMベースのフィルタリングを適用して、本物の改訂だけを保持します。候補ペアとして128万件から開始したパイプラインにより、真正な初期の下書き痕跡に基づく検証済み改訂ペア58万件を得ました。さらに、改訂検出のための人手アノテーション付きベンチマークも提供します。EarlySciRevは、後期段階の改訂、または合成による書き換えに焦点を当てた既存のリソースを補完し、科学執筆のダイナミクス、改訂モデリング、そしてLLM支援による編集に関する研究を支援します。