GIANTS: 科学文献からの生成的洞察予測(Generative Insight Anticipation)
arXiv cs.CL / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、「洞察予測(insight anticipation)」という課題を導入する。これは、モデルが親論文/基礎となる論文を文脈として用い、下流の科学論文の中核となる洞察を予測するタスクである。
- 8つの科学分野にまたがる17k件の例からなるベンチマーク「GiantsBench」を提示し、親論文セットと対応する正解となる下流論文の中核洞察を組み合わせる。さらに、LM-judgeの類似度メトリクスを用いて出力を評価し、人間の専門家評価と相関することを示す。
- 強化学習によりGIANTS-4Bを学習し、類似度スコアを代理報酬として用いる。その結果、このより小さなモデルが、(gemini-3-proに対する相対的な類似度改善として)34%の改善が報告されているプロプライエタリなベースラインよりも優れ、また未知の領域へも汎化することが分かった。
- 人手による評価では、GIANTS-4Bは基盤モデルよりも概念的に明確な洞察を生成することが示される。一方でSciJudge-30Bは、生成された洞察が引用のインパクト増大につながる可能性が高いことを示唆し、比較の68%でGIANTS-4Bが優先された。
- 著者らは、コード、ベンチマーク、モデルを公開し、自動化された、文献に基づく科学的発見に関するさらなる研究を促進する計画である。




