RenoBench：引用パースのためのベンチマーク

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

RenoBenchは、引用パースのためのパブリックドメインのベンチマークとして導入されており、従来の評価の限界（汎化性の欠如、合成データへの依存、または利用可能性の限定）に対処することを目的としています。
データセットは、4つの出版エコシステム（SciELO、Redalyc、Public Knowledge Project、Open Research Europe）からPDFを抽出して得た161,000件の注釈付き引用に基づいて構築され、10,000件の引用を生成しています。これにより、多言語かつ複数の出版タイプをカバーします。
著者らは、自動化された検証と特徴量ベースのサンプリングを適用し、言語、プラットフォーム、引用形式の観点でデータセットの品質と代表性を向上させています。
実験では複数の引用パースシステムを評価し、フィールド単位の精度／再現率を報告しています。その結果、特に微調整した場合に、言語モデルが強い性能を示すことが分かりました。
RenoBenchは、引用パースのための再現可能で標準化された評価を可能にし、下流の自動化された引用インフラストラクチャおよびメタサイエンス研究を支援することを目指します。

要旨: 引用の正確なパースは、機械可読な学術インフラストラクチャに必要である。しかし、この問題への継続的な関心にもかかわらず、既存の評価手法は、しばしば一般化可能ではなく、合成データに基づいており、または公開されていない。私たちは、SciELO、Redalyc、Public Knowledge Project、Open Research Europeという4つの出版エコシステムで公開されたPDFから取得した引用パースのための、パブリックドメインのベンチマークであるRenoBenchを導入する。161,000件の注釈付き引用から出発し、自動化された検証と特徴量に基づくサンプリングを適用して、多言語、出版タイプ、プラットフォームにまたがる10,000件の引用からなるデータセットを作成する。次に、さまざまな引用パースシステムを評価し、フィールド単位の適合率と再現率を報告する。結果は、特に微調整した場合において言語モデルが強力な性能を示すことを明らかにした。RenoBenchは、引用パースシステムの再現可能で標準化された評価を可能にし、自動化された引用パースとメタサイエンティフィック研究の発展の基盤を提供する。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

実行前にLLMコーディングエージェントの失敗を検知する9項目のチェックリストを作りました

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

RenoBench：引用パースのためのベンチマーク

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

実行前にLLMコーディングエージェントの失敗を検知する9項目のチェックリストを作りました

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer