DR$^{3}$-Eval：現実的で再現可能なディープリサーチ評価に向けて

arXiv cs.AI / 2026/4/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

DR$^{3}$-Evalは、ディープリサーチエージェントの評価向けに、特にマルチモーダルかつ複数ファイルでのレポート生成を対象として「現実的で再現可能」なベンチマークとして提案されます。
ベンチマークは、実際のユーザーが提供した素材と、検証可能性を保ったままオープンウェブの複雑さを模擬するタスクごとの静的リサーチ・サンドボックス・コーパスから構成されます。
評価はInformation Recall、Factual Accuracy、Citation Coverage、Instruction Following、Depth Qualityの複数次元で行われ、人間の判断との整合性が検証されています。
DR$^{3}$-Agent（複数の最先端LLMを使用）での実験では、本ベンチマークが非常に難しく、検索の頑健性や幻覚（ハルシネーション）制御といった重要な失敗モードが明らかになることが示されます。
併せて、コードとデータは公開されると述べられています。