BioAlchemy:生物学的文献を推論に適した強化学習トレーニングデータへ蒸留する

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生物学分野の大規模推論データセットが、現在の生物学研究トピックの分布と十分に整合していないため、生物学タスクにおける推論モデルの性能を低下させ得ると主張している。
  • 生物学研究文献から、多様で検証可能な生物学の設問—回答ペアを抽出し、強化学習に利用できる形にするパイプラインとしてBioAlchemyを提案する。
  • 著者らはBioAlchemy-345K(生物学の推論問題34.5万件を含むデータセット)を公開し、データセットのトピック構成を現代の生物学に合わせることで、強化学習の成果が向上することを示す。
  • さらに、生物学ベンチマークにおいて基盤モデルに対して9.12%の改善を達成する8B推論モデルの変種BioAlchemist-8Bも提示する。
  • 得られたモデルはHugging Faceで公開されており、下流の研究者やチームが生物学に特化した推論システムをさらに構築できるようになる。

Abstract

生物学の学習テキストとしては大規模コーパスが存在するにもかかわらず、生物学研究に対する推論モデルの影響は一般に、数学やコーディングに比べて遅れています。本研究では、現在の大規模推論データセットに含まれる生物学の問題が、生物学における現代の研究トピック分布と十分に整合していないこと、そしてこのトピックの偏りが性能に悪影響を及ぼし得ることを示します。さらに、生物学研究テキストから、困難で検証可能な研究課題を抽出するための手法は、生物学研究タスクに対して強化学習をより良い性能に適用するうえで重要であるにもかかわらず、十分に発展していない要素であることを見出します。本研究では、生物学研究テキストという科学的コーパスから、多様な検証可能な「質問・回答」ペアを調達するためのパイプラインであるBioAlchemyを導入します。BioAlchemy-345Kとして、生物学における345K件超の科学的推論課題を含む学習データセットを作成しました。次に、データセットを現代の科学的生物学のトピック分布に合わせることが、強化学習と組み合わせて推論性能を向上させるのにどのように利用できるかを示します。最後に、BioAlchemist-8Bを提示します。これは、生物学ベンチマークにおいて基礎となる推論モデルより9.12%改善します。これらの結果は、生物学においてより強力な科学的推論能力を育成するための本アプローチの有効性を示しています。BioAlchemist-8Bモデルは以下で利用可能です:https://huggingface.co/BioAlchemy。