MERRIN: 雑音のあるWeb環境におけるマルチモーダル証拠の検索と推論のためのベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、雑音のある現実のWeb環境において、検索拡張エージェントのマルチモーダル証拠検索とマルチホップ推論を評価するための、人手による注釈付きベンチマーク「MERRIN」を提案する。
  • MERRINは、明示的なモダリティ手がかりを伴わない自然言語クエリ、動画や音声といった未だ十分に検討されていないモダリティへの対応、複雑で衝突するマルチモーダル情報源を検索し、そのうえで推論する必要といった、難易度の高い要件を中心に設計されている。
  • 実験では、クローズドソースおよびオープンウェイトの両方のモデルにより駆動される複数の検索エージェント構成を、3つの設定(検索なし、ネイティブ検索、エージェント的検索)で評価し、全体として非常に低い性能(平均精度22.3%)と、上位結果でも40.1%にとどまることを示す。
  • 本研究では、より高性能なエージェントであっても改善はわずかにとどまることが分かる。これは、部分的に関連する、または矛盾するWebコンテンツに気を取られつつ、より多くの手順・ツールを使って過剰に探索してしまうことが多いためである。
  • 人間と比較すると、エージェントはより多くの計算資源を用いるにもかかわらず精度が低い。これは主に、情報源の選択が非効率であること、そして複数のモダリティを正しく活用するのではなくテキストに過度に依存していることに起因する。

概要: 検索クエリの本質的に曖昧で、かつ多段(multi-hop)である性質と、現実世界のウェブ検索結果が持つマルチモーダルで、異種混在で、しばしば相互に矛盾している性質に動機づけられ、MERRIN(Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments)を提案します。これは、検索拡張エージェントを評価するための、人手による注釈付きベンチマークです。MERRINは、AIエージェントが、関連するモダリティを特定し、マルチモーダルな証拠を取得し、ノイズのあるウェブ情報源を対象に多段推論を行う能力を測定します。MERRINは、先行研究と比べて重要な3点で異なります:(1)モダリティを明示する手がかりなしに、自然言語クエリを用いること、(2)動画や音声といった、これまで十分に探究されてこなかったモダリティを取り込むこと、(3)ウェブ検索中に、複雑で、しばしばノイズや矛盾を含むマルチモーダルな証拠の取得を要求すること、です。私たちは、10モデルによって駆動される多様な検索エージェントを評価します。強力なクローズドソースモデル(例:GPT-5.4-mini、Gemini 3/3.1 Flash/Pro)およびオープンウェイトモデル(Qwen3-4B/30B/235B)を含め、3つの検索設定(検索なし、ネイティブ検索、エージェント型検索)にわたって実験します。結果は、MERRINが非常に難しいことを示しています。すべてのエージェントにおける平均精度は22.3%であり、最良のエージェントでも40.1%にとどまります。さらに、Gemini Deep Researchのようなより強力なエージェントであっても高い性能を達成する一方で、過度な探索(over-exploration)により伸びは控えめであることが分かります。これらはより多くの手順を踏み、より多くのツールを使用しますが、しばしば矛盾した、または部分的にしか関連しないウェブコンテンツに注意を奪われ、不正確な回答につながります。人間と比べると、これらのエージェントはより多くの計算資源を消費するにもかかわらず、精度は低くなっています。主因は、非効率な情報源選択と、テキスト・モダリティへの過度な依存にあります。これらの知見は、ノイズのあるウェブ環境において多様なモダリティにわたる堅牢な検索と推論を可能にする検索エージェントが必要であることを示しています。したがって、MERRINは、このような能力を評価するための貴重なテストベッドとなります。