AI Navigate

戦略的ナビゲーションか、それとも確率的探索か?エージェントと人間は文書コレクションをどのように推論するか

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MADQAベンチマークは、800種類のPDF文書に基づく2,250の人間作成質問を導入し、マルチモーダルエージェントが戦略的推論を示すのか、それとも総当たり探索に頼るのかを検証する。
  • 設計は古典的検査理論を用いて、さまざまなエージェント能力レベルにおける識別力を最大化し、精度と労力のトレードオフを測定する新しい評価プロトコルを実装している。
  • 本研究は、トップエージェントが生データにおける正確さで人間の検索者と同等に並ぶ一方で、ほとんど異なる質問に回答し、弱い計画性を補うため総当たり探索に依存し、非生産的なループのためオラクル性能との差を約20%縮められないことを示している。
  • 著者らはMADQAとその評価ハーネスを公開し、文書集中型ワークフローにおける総当たり検索から較正済みで効率的な推論への移行を促進する。
要旨: マルチモーダルエージェントは、複雑な文書集約ワークフローを自動化する有望な道を提供します。しかし、重要な疑問が残ります。これらのエージェントは真の戦略的推論を示すのでしょうか、それとも単なる確率的な試行錯誤の探索なのでしょうか。これに対処するため、800種類の異種PDF文書に基づく2,250の人間が作成した質問からなるMADQAを導入します。古典的検査理論に基づき、エージェントの能力のさまざまなレベルにわたって識別力を最大化するよう設計しています。エージェントの挙動を評価するために、正確さと労力のトレードオフを測定する新しい評価プロトコルを導入します。この枠組みを用いて、最も優れたエージェントは生データにおける正確さで人間の検索者と同等に匹敵するものの、ほとんど異なる質問に対して成功し、弱い戦略的計画を補うために総当たり検索に依存し、オラクルの性能との差をほぼ20%縮めることができず、非生産的なループが続くことを示します。我々はデータセットと評価ハーネスを公開し、総当たり検索による取得から較正済みで効率的な推論への移行を促進するのを手助けします。