要旨: 引用の正確なパースは、機械可読な学術インフラストラクチャに必要である。しかし、この問題への継続的な関心にもかかわらず、既存の評価手法は、しばしば一般化可能ではなく、合成データに基づいており、または公開されていない。私たちは、SciELO、Redalyc、Public Knowledge Project、Open Research Europeという4つの出版エコシステムで公開されたPDFから取得した引用パースのための、パブリックドメインのベンチマークであるRenoBenchを導入する。161,000件の注釈付き引用から出発し、自動化された検証と特徴量に基づくサンプリングを適用して、多言語、出版タイプ、プラットフォームにまたがる10,000件の引用からなるデータセットを作成する。次に、さまざまな引用パースシステムを評価し、フィールド単位の適合率と再現率を報告する。結果は、特に微調整した場合において言語モデルが強力な性能を示すことを明らかにした。RenoBenchは、引用パースシステムの再現可能で標準化された評価を可能にし、自動化された引用パースとメタサイエンティフィック研究の発展の基盤を提供する。
RenoBench:引用パースのためのベンチマーク
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- RenoBenchは、引用パースのためのパブリックドメインのベンチマークとして導入されており、従来の評価の限界(汎化性の欠如、合成データへの依存、または利用可能性の限定)に対処することを目的としています。
- データセットは、4つの出版エコシステム(SciELO、Redalyc、Public Knowledge Project、Open Research Europe)からPDFを抽出して得た161,000件の注釈付き引用に基づいて構築され、10,000件の引用を生成しています。これにより、多言語かつ複数の出版タイプをカバーします。
- 著者らは、自動化された検証と特徴量ベースのサンプリングを適用し、言語、プラットフォーム、引用形式の観点でデータセットの品質と代表性を向上させています。
- 実験では複数の引用パースシステムを評価し、フィールド単位の精度/再現率を報告しています。その結果、特に微調整した場合に、言語モデルが強い性能を示すことが分かりました。
- RenoBenchは、引用パースのための再現可能で標準化された評価を可能にし、下流の自動化された引用インフラストラクチャおよびメタサイエンス研究を支援することを目指します。