AutoResearchBench:複雑な科学文献発見を対象にしたAIエージェントのベンチマーク

arXiv cs.AI / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • AutoResearchBenchは、AIエージェントが自律的に関連する科学文献を発見できる能力を評価することに特化した新しいベンチマークとして発表された。
  • ベンチマークには2種類のタスクがあり、Deep Research(段階的な探索で特定の目標論文を見つける)とWide Research(条件を満たす論文集合を包括的に収集する)が含まれる。
  • 従来のエージェント型Webブラウジングのベンチマークと比べ、AutoResearchBenchは研究・概念理解に重きを置き、詳細情報をきめ細かく使うことが求められ、さらに有効な論文数が未知であるため熟慮した探索と推論が必要だとされる。
  • 実験では、最も強力なLLM系でもDeep Researchで約9.39%、Wide Researchで約9.31%のIoUにとどまり、多くのベースラインは5%未満であることが示され、この課題の難しさが浮き彫りになった。
  • データセット、評価パイプライン、コードは公開され、今後の自律的な科学研究(文献発見)に関する研究を後押しする狙いがある。

概要: 自律的な科学研究は、AIエージェントの開発によって大きく前進しています。このプロセスにおける重要なステップの1つは、適切な科学文献を見つけることです。研究課題に対して既存の知識を探求する場合でも、仮定を検証し主張を裏付けるための証拠を得る場合でも同様です。AIエージェントがこのプロセスを推進する能力をどの程度持つかを評価するために、私たちは自律的な科学文献発見のための専用ベンチマークであるAutoResearchBenchを提示します。AutoResearchBenchは、2つの相補的なタスクタイプから構成されます: (1)Deep Researchは、段階的な多段階の探索プロービング手順によって特定の目標論文を追跡することを要し、(2)Wide Researchは、与えられた条件を満たす一連の論文を包括的に収集することを要します。エージェントによるウェブ閲覧に関する先行ベンチマークと比べて、AutoResearchBenchは3つの観点で際立っています。それは、科学的概念の深い理解を要求する「研究指向」であること、詳細な情報をきめ細かく活用することを求める「文献指向」であること、そして、適格な論文の数が未知であるため、探索全体を通じた慎重な推論と検索が必要となる「オープンエンド」であることです。これらの性質により、AutoResearchBenchは自律的な研究能力の評価に唯一適しており、非常に難易度が高いものとなっています。BrowseCompのような一般的なエージェント型ウェブ閲覧ベンチマークの多くをすでに大きく制覇しているとしても、最も強力なLLMでさえ、Deep Researchでは9.39%の精度、Wide Researchでは9.31%のIoUしか達成できず、他の多くの強力なベースラインも5%を下回ります。私たちは、この方向性における今後の研究を促進するために、データセットと評価パイプラインを公開します。データセット、評価パイプライン、コードは https://github.com/CherYou/AutoResearchBench で公開しています。