GIANTS: 科学文献からの生成的洞察予測(Generative Insight Anticipation)

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「洞察予測(insight anticipation)」という課題を導入する。これは、モデルが親論文/基礎となる論文を文脈として用い、下流の科学論文の中核となる洞察を予測するタスクである。
  • 8つの科学分野にまたがる17k件の例からなるベンチマーク「GiantsBench」を提示し、親論文セットと対応する正解となる下流論文の中核洞察を組み合わせる。さらに、LM-judgeの類似度メトリクスを用いて出力を評価し、人間の専門家評価と相関することを示す。
  • 強化学習によりGIANTS-4Bを学習し、類似度スコアを代理報酬として用いる。その結果、このより小さなモデルが、(gemini-3-proに対する相対的な類似度改善として)34%の改善が報告されているプロプライエタリなベースラインよりも優れ、また未知の領域へも汎化することが分かった。
  • 人手による評価では、GIANTS-4Bは基盤モデルよりも概念的に明確な洞察を生成することが示される。一方でSciJudge-30Bは、生成された洞察が引用のインパクト増大につながる可能性が高いことを示唆し、比較の68%でGIANTS-4Bが優先された。
  • 著者らは、コード、ベンチマーク、モデルを公開し、自動化された、文献に基づく科学的発見に関するさらなる研究を促進する計画である。

Abstract

科学的ブレークスルーは、既存のアイデアを統合して新たな貢献へとつなげることで生まれることがしばしばあります。言語モデル(LM)は科学的発見において有望であるものの、特定の文献に根ざしたこのような狙いを定めた統合を実行できるかどうかは、十分に検討されていません。我々は洞察の予期(insight anticipation)を提案します。これは、モデルが、基礎となる親論文群から下流の論文の中核となる洞察を予測する生成タスクです。この能力を評価するために、8つの科学分野にわたる17k件の例からなるベンチマーク GiantsBench を構築します。各例は、複数の親論文の集合と、下流論文の中核となる洞察の組で構成されます。生成された洞察と正解の洞察の類似度を評価するLMジャッジを用いてモデルを評価し、その類似度スコアが専門家による人手評価と相関することを示します。最後に、これらの類似度スコアを代理報酬として用い、強化学習(RL)によって洞察の予期を最適化するLMである GIANTS-4B を提示します。オープンソースのアーキテクチャとしてはより小規模であるにもかかわらず、GIANTS-4B はプロプライエタリなベースラインを上回り、未見の領域にも汎化し、gemini-3-pro に対して類似度スコアで相対34%の改善を達成します。人手評価ではさらに、GIANTS-4B が基となるモデルよりも概念的に明確な洞察を生成することが示されています。加えて、引用インパクトの見込みによって研究要旨を比較するように訓練された第三者モデルである SciJudge-30B は、GIANTS-4B によって生成された洞察のほうがより高い引用に至る可能性が高いと予測しており、2者比較の68%でそれを基となるモデルよりも選好しています。我々は、自動化された科学的発見に関する今後の研究を支えるために、コード、ベンチマーク、モデルを公開します。