生成的AIを用いた学術出版における研究データ再利用の測定:オープンサイエンス指標の開発と予備結果

arXiv cs.CL / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PLOSとDataSeerは、オープンサイエンスの「下流」効果として重要な研究データの再利用を測ることを目的に、LLMベースのオープンサイエンス指標を開発した。
  • 予備結果では、データ再利用率が43%であり、従来の書誌計量手法が示す値よりも高いことがわかった。
  • 研究データの再利用は、生成的AIとLLMを用いることで大規模に測定できると示された。
  • 著者らは、既存の測定手法の限界により、研究データ共有と再利用の利点が現在は過小評価されている可能性があると主張している。

概要: 多数のメタサイエンス研究やその他の取り組みが、オープンサイエンスの「下流(downstream)」における影響やインパクトを理解することがより重要である場合に、オープンサイエンスの実践がどれほど普及しているかを監視し始めている。PLOS と DataSeer は、オープンサイエンスの重要な効果を測定するための新しい LLM ベースの指標を開発した。それは、研究データの再利用である。私たちの結果は、確立された書誌計量学的手法よりも高い 43% のデータ再利用率を示している。私たちは、LLM と生成的人工知能を用いることで、データ再利用を大規模に測定できることを示す。研究データの共有と再利用による正の効果は、現時点では過小評価されている可能性がある。