EpiBench: マルチモーダルエージェントのためのマルチターン研究ワークフローをベンチマークする
arXiv cs.CL / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、複数ターンにわたって先回りした文献探索と持続的なエビデンス活用を行う研究エージェントを評価するための、新しいエピソード型マルチターン・マルチモーダルベンチマーク「EpiBench」を提案する。
- タスクでは、エージェントが複数の論文にまたがって移動し、図や表からエビデンスを抽出して整合させ、その後に蓄積したメモリを用いて、論文横断の比較や複数図の統合を含む目的に基づく質問に答えることが求められる。
- 著者らは、最終的な回答だけでなく、ワークフロー全体を通じた研究エージェントの振る舞いを微細な粒度で検証し診断することを目的とした、プロセスレベルの評価フレームワークを提案する。
- 実験結果では、最先端のモデルでさえ難しい分割(hard split)において正確度が29.23%にとどまっており、マルチステップかつ複数エビデンスを用いた科学的推論に関する現在の能力には大きなギャップがあることが示される。




