EvoMaster:スケールするエージェンティック・サイエンスのための基盤型エボルビング・エージェント・フレームワーク

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • 本論文は、「Agentic Science」を対象に、試行錯誤を通じて仮説を学習し洗練できるエージェントを可能にする、ドメイン非依存の進化型エージェント・フレームワーク「EvoMaster」を提案している。
  • EvoMasterの中核設計は継続的な自己進化にあり、エージェントが自己批判しつつ実験サイクルを重ねて知識を漸進的に蓄積できるようにしている。
  • 同フレームワークはスケールが容易で、開発者が約100行のコードで任意分野の自己進化型科学エージェントを構築・展開できると主張している。
  • SciMasterエコシステムを機械学習や物理など複数領域に展開し、Humanity’s Last Exam、MLE-Bench Lite、BrowseComp、FrontierScienceの4つのベンチマークで最高水準の結果が報告されている。
  • 一般用途のベースラインOpenClawと比べて相対的な改善が+159%〜+316%と大きく、次世代の自律的な科学的発見を支える基盤フレームワークとして有効性と汎用性を裏付けている(GitHubで公開)。

Abstract

大規模言語モデルとエージェントの融合は、科学的発見の新たな時代――エージェンティック・サイエンス――を加速させています。科学的方法は本質的に反復的ですが、既存のエージェント基盤は主として静的で、範囲が狭く、試行錯誤から学習する能力に欠けています。このギャップを埋めるために、私たちはエージェンティック・サイエンスをスケールするために特化して設計された基礎となる進化型エージェント基盤であるEvoMasterを提示します。連続的な自己進化という中核原理に基づき、EvoMasterはエージェントが仮説を反復的に洗練し、自己批評を行い、実験サイクルを通じて知識を段階的に蓄積していくことを可能にし、人間の科学的探究を忠実に反映します。重要なのは、ドメイン非依存の基盤として、EvoMasterは非常にスケールしやすい点です。これにより、開発者は約100行のコードで任意の分野に対して高度に能力の高い自己進化型の科学エージェントを構築・デプロイできます。EvoMasterの上に構築することで、私たちはSciMasterエコシステムを、機械学習、物理学、一般科学といった領域にまたがってインキュベーションしました。4つの権威あるベンチマーク(Humanity's Last Exam、MLE-Bench Lite、BrowseComp、FrontierScience)での評価により、EvoMasterはそれぞれ41.1%、75.8%、73.3%、53.3%という最先端のスコアを達成していることが示されます。一般用途のベースラインであるOpenClawに対しては、相対的な改善が+159%から+316%の範囲に及び、総合的に上回っています。これにより、その有効性と汎用性が、次世代の自律的な科学的発見のための最有力な基礎となる枠組みとして堅牢に裏付けられます。EvoMasterはhttps://github.com/sjtu-sai-agents/EvoMasterで利用可能です。