SeekerGym:信頼できる情報探索のためのベンチマーク

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、AIエージェントが取得する情報の「完全性」を、関連性や正しさだけでなく評価する新しいベンチマークSeekerGymを提案しています。
  • 完全性の評価に加えて、エージェントが「不足しているかもしれない情報量」をどれだけ適切に不確実性として定量化できているかも測定します。
  • SeekerGymのタスクは、ドキュメント(例:Wikipedia記事や機械学習のサーベイ論文)として定義され、エージェントはクエリを発行して該当するパッセージを取得します。
  • ベンチマークの結果では、最良の手法でもWikipediaで42.5%、MLサーベイでは29.2%のパッセージしか取得できず、信頼性の高い情報探索には大きな改善余地があることが示されています。
  • 著者らは、返された情報がそれぞれ正しく関連していても、取得の不完全さがユーザーにバイアスを生み、誤導につながり得ると強調しています。

要旨: 目覚ましい成功を収めているにもかかわらず、AIエージェントは信頼性に関して根本的な課題を抱え続けています。たとえば、特定のトピックに関連する情報を検索するよう課されたディープリサーチ・エージェントを考えてみましょう。AIエージェントは効果的な情報検索を行えますが、その情報が完全であることはほとんど保証されません。検索された情報の欠落は、提示された情報が正しく関連していたとしても、ユーザーを誤って導くバイアスにつながりえます。私たちは、AIエージェントが取得する情報の完全性を評価するためのベンチマークであるSeekerGymを導入します。さらにSeekerGymは、エージェントが自らの情報の完全性に関する不確実性をどれだけ適切に定量化できているかも測定します。もしエージェントが関連する情報をすべて取得できなかった場合でも、少なくとも「何がどれくらい不足している可能性があるか」を定量化できると有用です。大まかに言えば、SeekerGymの各タスクは文書(例:Wikipediaの記事)であり、AIエージェントはその文書から抜粋を取得するためにクエリを発行する必要があります。直感的には、その文書がトピックを包括的にカバーしているため、各セクションを直接取得できる能力が、情報検索の完全性を測定することになります。Wikipediaに加えて、機械学習のサーベイ論文も対象として考えます。ここでの目標は、サーベイ論文の関連するセクションを取得することです。複数のモデルとアルゴリズムをベンチマークしたところ、最良の手法でもWikipediaでは42.5%の抜粋、ML Surveysでは29.2%の抜粋しか取得できず、大きな改善の余地が残されています。