EuraGovExam:実世界の文官採用試験に基づく多言語マルチモーダル・ベンチマーク
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ユーラシア地域の5地域(韓国、日本、台湾、インド、欧州連合)の実際の文官採用試験から構築された、新しい多言語・マルチモーダル・ベンチマーク EuraGovExam を紹介する。
- データセットには、17の領域にわたる8,000件超の高解像度のスキャン済みマルチプルチョイス問題が含まれており、テキスト要素と視覚要素のすべてを単一の画像に埋め込むことで、レイアウトを意識した推論を試す。
- EuraGovExam は、先行ベンチマークと異なり、OCR/テキスト項目を分離して利用するのではなく、画像入力そのものから直接、言語横断かつ視覚レイアウトに基づく推論をモデルに要求する。
- 評価結果では、最新のビジョン言語モデルでさえ精度は86%にとどまっており、文化的に現実的で視覚的に複雑な試験文書を扱ううえでの現在の限界が浮き彫りになっている。
- 本ベンチマークは、e-ガバナンスおよび公共部門の文書分析のための開発と評価、ならびにより公平な多言語の試験準備を支援することを目的として位置づけられている。



