DR$^{3}$-Eval:現実的で再現可能なディープリサーチ評価に向けて
arXiv cs.AI / 2026/4/17
📰 ニュースTools & Practical UsageModels & Research
要点
- DR$^{3}$-Evalは、ディープリサーチエージェントの評価向けに、特にマルチモーダルかつ複数ファイルでのレポート生成を対象として「現実的で再現可能」なベンチマークとして提案されます。
- ベンチマークは、実際のユーザーが提供した素材と、検証可能性を保ったままオープンウェブの複雑さを模擬するタスクごとの静的リサーチ・サンドボックス・コーパスから構成されます。
- 評価はInformation Recall、Factual Accuracy、Citation Coverage、Instruction Following、Depth Qualityの複数次元で行われ、人間の判断との整合性が検証されています。
- DR$^{3}$-Agent(複数の最先端LLMを使用)での実験では、本ベンチマークが非常に難しく、検索の頑健性や幻覚(ハルシネーション)制御といった重要な失敗モードが明らかになることが示されます。
- 併せて、コードとデータは公開されると述べられています。



