MARCA:チェックリストに基づく多言語ウェブ検索ベンチマーク
arXiv cs.CL / 2026/4/17
📰 ニュースModels & Research
要点
- MARCAは、LLMがウェブ上の情報探索を行う際の性能を評価するための新しい二言語(英語・ポルトガル語)ベンチマークで、手作りの質問と検証済みのチェックリスト形式の採点基準を用います。
- 52件の多エンティティ質問を通じて、回答の網羅性と正確性を測定し、特にポルトガル語を含む多言語環境という未着手領域を扱っています。
- 14モデルを2つの対話設定で評価しており、基本(直接のウェブ検索とスクレイピング)と、オーケストレータ(委任したサブエージェントでタスク分解)です。
- 結果としてモデル間の性能差が大きく、オーケストレーションは概ねカバレッジを改善する一方で、英語からポルトガル語への転移には大きなばらつきが見られます。




