DRBENCHER: あなたのエージェントはエンティティを特定し、その性質を取得して計算できるか?

arXiv cs.AI / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エンティティを特定するために閲覧(ブラウズ)し、その後取得した性質に対して複数ステップの計算を行う必要があるディープリサーチエージェントを検証するための合成ベンチマーク「DRBENCHER」を提案する。
  • DRBENCHERは、4つの明示的な基準に基づく「回答先行(answer-first)」パイプラインにより問題を生成する。基準は、知識グラフの値に対する実行可能なパラメータ化コードによる検証可能性、複数ホップのエンティティ/性質の取得に加えて領域固有の数学による複雑性、そして自明な解を排除するための二段階の検証カスケードによる難しさである。
  • 5つの領域(生化学、金融、地球物理、セキュリティ、歴史)における人手評価では、有効性が76%(陳腐化したデータを除外すると84%)であることが示され、エラーの35%が知識グラフのエントリの古さに起因すると報告している。
  • 自動評価では、最強クラスのフロンティアモデルですら到達するのは解答精度20%にとどまり、現在のエージェント能力が「閲覧してから計算まで」を通しで行うタスクに依然として苦戦していることが強調される。
  • 複数の手作りベンチマークと比較して、DRBENCHERは意味的多様性を高めることを重視し、閲覧と計算を別々に評価することによって生じる見落とし(ブラインドスポット)を減らすことを目的としている。

DRBENCHER: あなたのエージェントはエンティティを特定し、その性質を取得して計算できるか? | AI Navigate