Abstract
深層リサーチシステムにおける近年の進展は目覚ましいものの、評価はいまだ実ユーザーのニーズに追いついていません。既存のベンチマークは主に固定されたルーブリックを用いて最終レポートを評価するため、基盤となる研究プロセスを評価できていません。さらに、多くはマルチモーダルのカバー範囲が限定的であり、現実のクエリ複雑性を反映しない合成タスクに依存していて、知識が進化するにつれて更新できません。これらのギャップに対処するため、我々は深層リサーチシステム向けのベンチマークおよび評価フレームワークであるMiroEvalを導入します。本ベンチマークは100のタスク(テキストのみ70、マルチモーダル30)で構成され、すべて実ユーザーのニーズに基づいており、周期的な更新を可能にするデュアルパスのパイプラインによって構築されます。これにより、ライブで進化し続ける状況を実現します。提案する評価スイートは、深層リサーチシステムを3つの相補的な次元に沿って評価します。すなわち、タスク固有のルーブリックによる適応的な合成品質評価、能動的なリトリーバルとウェブソースおよびマルチモーダル添付の両方に対する推論によるエージェント的ファクト性検証、そして調査の全過程にわたり、システムがどのように検索し、考え、洗練していくかをプロセス中心で監査する評価です。13のシステムに対する評価から、主に3つの知見が得られました。3つの評価次元はシステム能力の相補的な側面を捉えており、システムごとに異なる強みと弱みを明らかにすること;プロセス品質が全体的な結果の信頼できる予測指標として機能し、出力レベルの指標では見えない弱点をも露呈すること;そしてマルチモーダル・タスクがはるかに大きな難しさをもたらし、ほとんどのシステムで3〜10ポイントの低下が見られることです。MiroThinkerシリーズは最もバランスの取れた性能を達成しており、MiroThinker-H1は両方の設定において総合順位が最高です。人手による検証とロバストネスの結果は、ベンチマークおよび評価フレームワークの信頼性を裏付けます。MiroEvalは、次世代の深層リサーチ・エージェントのための包括的な診断ツールを提供します。