DRBENCHER: あなたのエージェントはエンティティを特定し、その性質を取得して計算できるか？

arXiv cs.AI / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、エンティティを特定するために閲覧（ブラウズ）し、その後取得した性質に対して複数ステップの計算を行う必要があるディープリサーチエージェントを検証するための合成ベンチマーク「DRBENCHER」を提案する。
DRBENCHERは、4つの明示的な基準に基づく「回答先行（answer-first）」パイプラインにより問題を生成する。基準は、知識グラフの値に対する実行可能なパラメータ化コードによる検証可能性、複数ホップのエンティティ／性質の取得に加えて領域固有の数学による複雑性、そして自明な解を排除するための二段階の検証カスケードによる難しさである。
5つの領域（生化学、金融、地球物理、セキュリティ、歴史）における人手評価では、有効性が76%（陳腐化したデータを除外すると84%）であることが示され、エラーの35%が知識グラフのエントリの古さに起因すると報告している。
自動評価では、最強クラスのフロンティアモデルですら到達するのは解答精度20%にとどまり、現在のエージェント能力が「閲覧してから計算まで」を通しで行うタスクに依然として苦戦していることが強調される。
複数の手作りベンチマークと比較して、DRBENCHERは意味的多様性を高めることを重視し、閲覧と計算を別々に評価することによって生じる見落とし（ブラインドスポット）を減らすことを目的としている。

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

note

現状AIはどれくらいの速度で進化しているのか

note

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

note

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

note

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

note

DRBENCHER: あなたのエージェントはエンティティを特定し、その性質を取得して計算できるか？

要点

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳