要旨: 偉大な科学者は、私たちが“科学的嗜好”と呼ぶものと密接に結びついた、強い判断力と先見の明を備えています。ここでは、この用語を、高い潜在的影響を持つ研究アイデアを判断・提案する能力を指すものとして用います。しかし、関連する研究の多くはAI科学者の実行能力の向上に焦点を当てる一方で、AIの科学的嗜好を高めることは十分には検討されていません。本研究では、コミュニティの大規模信号を監督信号として用いるトレーニングパラダイムである“コミュニティ・フィードバックによる強化学習”(RLCF)を提案し、科学的嗜好の学習を好みのモデリングと整合性の問題として定式化します。好みのモデリングのために、アイデアを判断するために、分野と時期が一致した高被引用論文と低被引用論文の70万件のペアを用いてScientific Judgeを訓練します。好みの整合のために、Scientific Judgeを報酬モデルとして用い、潜在的影響が高い研究アイデアを提案する方針モデルScientific Thinkerを訓練します。実験の結果、Scientific JudgeはSOTAのLLMs(例:GPT-5.2、Gemini 3 Pro)を上回り、将来の年度のテスト、未見の分野、査読の嗜好にも一般化することを示します。さらに、Scientific Thinkerはベースラインよりも高い潜在的影響を持つ研究アイデアを提案します。我々の知見は、AIが科学的嗜好を学習できることを示しており、人間レベルのAI科学者へ到達するための重要な一歩となります。
AIは科学的センスを身につけられる
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、コミュニティのフィードバックからの強化学習(RLCF)を提案する。これは、大規模なコミュニティ信号を監督信号として利用し、AIシステムに科学的センスの概念を教える訓練パラダイムである。
- 分野と時期が一致する70万組の高被引用論文と低被引用論文のペアを用いて、Scientific Judgeを訓練し、高インパクトアイデアの嗜好をモデル化する。
- Scientific Judgeを報酬モデルとして用い、Scientific Thinkerを訓練して潜在的影響力の高い研究アイデアを提案させる。これにより、GPT-5.2やGemini 3 Proのような最先端のLLMを上回り、将来の年次テスト、未知の分野、査読の嗜好にも一般化する。
- 結果は、AIが科学的嗜好を学習できることを示し、人間レベルのAI科学者の実現に向けた重要な一歩となる。
