EpiBench: マルチモーダルエージェントのためのマルチターン研究ワークフローをベンチマークする

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、複数ターンにわたって先回りした文献探索と持続的なエビデンス活用を行う研究エージェントを評価するための、新しいエピソード型マルチターン・マルチモーダルベンチマーク「EpiBench」を提案する。
  • タスクでは、エージェントが複数の論文にまたがって移動し、図や表からエビデンスを抽出して整合させ、その後に蓄積したメモリを用いて、論文横断の比較や複数図の統合を含む目的に基づく質問に答えることが求められる。
  • 著者らは、最終的な回答だけでなく、ワークフロー全体を通じた研究エージェントの振る舞いを微細な粒度で検証し診断することを目的とした、プロセスレベルの評価フレームワークを提案する。
  • 実験結果では、最先端のモデルでさえ難しい分割(hard split)において正確度が29.23%にとどまっており、マルチステップかつ複数エビデンスを用いた科学的推論に関する現在の能力には大きなギャップがあることが示される。

Abstract

科学研究は、文献を先回りして探索し、図や表を参照し、複数の論文にまたがる証拠を統合して、実験設定を整合させ、再現可能な結論を支えることを必要とする、多段・多ターンのワークフローに従います。この共同的な能力は、既存のベンチマークでは体系的に評価されておらず、先回り探索、多数の証拠の統合、そして時間をかけた継続的な証拠の利用が、ほとんど過小評価されています。本研究では、短い研究ワークフローを具現化するエピソード型の多ターン・マルチモーダルベンチマークであるEpiBenchを導入します。研究課題が与えられたとき、エージェントは複数ターンにわたって論文を横断して移動し、図や表からの証拠を整合させ、蓄積された証拠をメモリに用いて、論文間の比較や複数図の統合を要する客観的な質問に答えなければなりません。EpiBenchは、研究エージェントをきめ細かくテストし、診断するためのプロセス・レベルの評価フレームワークを導入します。実験の結果、最先端のモデルでさえ難しい分割における精度がわずか29.23%にとどまることが示されました。これは、多段・多証拠の研究ワークフローを改善するための大きな余地があることを意味し、検証可能で再現可能な研究エージェントのための評価基盤を提供します。