SciImpact:科学的インパクト予測のための多次元・多分野ベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

要点

  • SciImpactは、引用ベースだけに偏った評価の限界を踏まえ、19分野にまたがる科学的インパクトを予測するための大規模・多次元ベンチマークとして提案されました。
  • ベンチマークは、引用数に加えて受賞、メディアでの注目、特許引用、成果物の採用など複数の影響シグナルを、異種データソースの統合とターゲットを絞ったウェブクローリングによって捉えます。
  • SciImpactには、短期(Best Paper Awardなど)と長期(ノーベル賞など)双方の状況で意味のあるインパクト差を反映する215,928件のコントラスト学習用ペーパーペアが含まれます。
  • 11の代表的なLLMを評価した結果、オフ・ザ・シェルフのモデルは次元や分野ごとに大きく性能がばらつき、マルチタスクの教師あり微調整では、小型LLM(約4B)が大型モデル(約30B)を上回り、o4-miniのような強力なクローズドモデルにも勝ることが示されました。
  • 研究チームはSciImpactを、引用以外の側面を含めて科学的インパクトを推論できるモデル開発に役立つ、挑戦的なベンチマークとして位置づけています。

要旨: 科学文献の急速な成長により、研究へのインパクトを評価し予測するための自動化手法が求められている。これまでの先行研究は主に被引用に基づく指標に焦点を当ててきたが、他のインパクト次元について推論する能力に関するモデルの評価は十分に行われていない。そこで本研究では、19分野にまたがる科学的インパクト予測のための大規模・多次元ベンチマークであるSciImpactを提案する。SciImpactは、異種データソースの統合と、対象を絞ったWebクロールにより、被引用数から受賞の認知、メディアへの注目、特許の参照、そしてアーティファクトの採用に至るまで、科学的影響のさまざまな形態を捉える。SciImpactは、短期的な設定(例:Best Paper Award)と長期的な設定(例:ノーベル賞)の両方において意味のあるインパクト差を反映した、215,928件の対比的な論文ペアから構成される。本研究では、SciImpactに対して11の広く用いられている大規模言語モデル(LLM)を評価する。結果は、市販のまま利用できるモデルが、次元や分野ごとに大きなばらつきを示す一方で、多タスクの教師あり微調整は一貫して、より小さなLLM(例:4B)がはるかに大きなモデル(例:30B)を大きく上回り、さらに強力なクローズドソースLLM(例:o4-mini)をも超えることを可能にすることを示している。これらの結果は、SciImpactを挑戦的なベンチマークとして確立し、多次元・多分野の科学的インパクト予測におけるその価値を示すものである。本プロジェクトのホームページは https://flypig23.github.io/sciimpact-homepage/