MARCA:チェックリストに基づく多言語ウェブ検索ベンチマーク

arXiv cs.CL / 2026/4/17

📰 ニュースModels & Research

要点

  • MARCAは、LLMがウェブ上の情報探索を行う際の性能を評価するための新しい二言語(英語・ポルトガル語)ベンチマークで、手作りの質問と検証済みのチェックリスト形式の採点基準を用います。
  • 52件の多エンティティ質問を通じて、回答の網羅性と正確性を測定し、特にポルトガル語を含む多言語環境という未着手領域を扱っています。
  • 14モデルを2つの対話設定で評価しており、基本(直接のウェブ検索とスクレイピング)と、オーケストレータ(委任したサブエージェントでタスク分解)です。
  • 結果としてモデル間の性能差が大きく、オーケストレーションは概ねカバレッジを改善する一方で、英語からポルトガル語への転移には大きなばらつきが見られます。

Abstract

大規模言語モデル(LLM)は情報源としてますます利用されている一方、その信頼性は、ウェブを検索する能力、関連する証拠を選択する能力、そして完全な回答を統合して作成する能力に依存する。近年のベンチマークではウェブ閲覧やエージェント型ツール利用が評価されているが、多言語環境、特にポルトガル語は十分に調査されていない。ここでは、ウェブベースの情報探索におけるLLMの性能を評価するための、バイリンガル(英語およびポルトガル語)ベンチマークである\textsc{MARCA}を提示する。\textsc{MARCA}は、52の手作業で作成された複数エンティティの質問からなり、さらに回答の網羅性と正確性を明示的に測定する、手作業で検証されたチェックリスト形式のルーブリックをそれらに対応させている。2つの相互作用設定のもとで14のモデルを評価する。すなわち、直接のウェブ検索とスクレイピングを行うBasicフレームワークと、委任されたサブエージェントによってタスク分解を可能にするOrchestratorフレームワークである。確率的な変動を捉えるために、各質問は複数回実行し、実行レベルの不確実性とともに性能を報告する。モデル間で大きな性能差が観察され、オーケストレーションがしばしばカバレッジを向上させること、また英語からポルトガル語への転移においてモデルごとに実質的なばらつきがあることを見出す。このベンチマークは https://github.com/maritaca-ai/MARCA で利用可能である