AI Navigate

VisBrowse-Bench: マルチモーダルブラウジングエージェントの視覚ネイティブ検索をベンチマークする

arXiv cs.CV / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • VisBrowse-Benchは、検索過程における視覚推論を評価するための、マルチモーダルブラウジングエージェントにおける視覚ネイティブ検索の新しいベンチマークを導入します。
  • このベンチマークは、複数の領域にまたがる169のVQAインスタンスから構成され、テキストと画像の検索を介したマルチモーダル証拠のクロス検証と共同推論を用います。
  • データは多段階のパイプラインを経て人間の専門家によって構築され、信頼性を確保するために厳密な手動検証を経ています。
  • 著者らは、検索中に視覚情報を積極的に収集し、それを用いて推論するエージェントのワークフローを提案し、ブラウジングエージェントを効果的にガイドします。
  • オープンソースおよびクローズドソースのモデルでの評価は、パフォーマンスのギャップを示しており(例:Claude-4.6-Opusが47.6%の精度、o3-deep-researchが41.1%)、視覚ネイティブなマルチモーダル検索の継続的な課題を浮き彫りにしています。コードとデータはGitHubで公開。

要約: マルチモーダル大規模言語モデル(MLLM)の急速な進歩により、ブラウジングエージェントは現実世界の多モーダル情報を取得し、推論することが可能になりました。しかし既存のベンチマークには2つの限界があります:視覚推論能力の評価が不十分であることと、推論チェーンにウェブページが元々備える視覚情報が無視されていることです。これらの課題に対処するため、VisBrowse-Bench という視覚的ネイティブ検索の新たなベンチマークを導入します。これは複数のドメインを網羅する169件のVQA事例を含み、テキストと画像の検索を通じたマルチモーダル証拠のクロス検証と共同推論を通じて検索プロセス中のモデルの視覚推論能力を評価します。これらのデータは複数段階のパイプラインを用いて人間の専門家によって作成され、厳密な手動検証を経ています。さらに、検索プロセス中に視覚情報を積極的に収集・推論するようブラウジングエージェントを効果的に駆動できるエージェントワークフローを提案します。 このワークフローでは、オープンソースモデルとクローズドソースモデルの両方を総合的に評価しました。 実験結果は、最高性能を示す Claude-4.6-Opus でさえ正解率47.6%にとどまる一方、独自の Deep Research モデル o3-deep-research の正解率は41.1%にしかならないことを示しています。コードとデータは以下でアクセスできます: https://github.com/ZhengboZhang/VisBrowse-Bench