EuraGovExam：実世界の文官採用試験に基づく多言語マルチモーダル・ベンチマーク

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ユーラシア地域の5地域（韓国、日本、台湾、インド、欧州連合）の実際の文官採用試験から構築された、新しい多言語・マルチモーダル・ベンチマーク EuraGovExam を紹介する。
データセットには、17の領域にわたる8,000件超の高解像度のスキャン済みマルチプルチョイス問題が含まれており、テキスト要素と視覚要素のすべてを単一の画像に埋め込むことで、レイアウトを意識した推論を試す。
EuraGovExam は、先行ベンチマークと異なり、OCR/テキスト項目を分離して利用するのではなく、画像入力そのものから直接、言語横断かつ視覚レイアウトに基づく推論をモデルに要求する。
評価結果では、最新のビジョン言語モデルでさえ精度は86%にとどまっており、文化的に現実的で視覚的に複雑な試験文書を扱ううえでの現在の限界が浮き彫りになっている。
本ベンチマークは、e-ガバナンスおよび公共部門の文書分析のための開発と評価、ならびにより公平な多言語の試験準備を支援することを目的として位置づけられている。

Abstract

私たちは、5つの代表的なユーラシア地域――韓国、日本、台湾、インド、欧州連合――における実世界の公務員試験から収集した、多言語かつマルチモーダルなベンチマーク「EuraGovExam」を提示します。公共部門における評価の真の複雑さを反映するように設計されたこのデータセットには、17の多様な学術・行政領域をカバーする、8,000件を超える高解像度のスキャン済みマルチクル選択問題が含まれます。既存のベンチマークとは異なり、EuraGovExamは、問題文、選択肢、視覚要素を含むすべての質問内容を単一の画像の中に埋め込み、解答形式のための最小限の標準化された指示のみを提供します。この設計により、モデルは視覚入力からレイアウトを理解した上で、直接かつ多言語間の推論を行う必要があります。すべての項目は実際の試験書類から作成されており、表、複数言語のタイポグラフィ、フォームのようなレイアウトといった豊かな視覚構造が保持されています。評価結果では、最先端の視覚言語モデル（VLM）でさえ正答率は86%にとどまっており、ベンチマークの難しさと、現在のモデルの限界を診断する力が強調されています。文化的な現実味、視覚的な複雑さ、そして言語的多様性を重視することで、EuraGovExamは、ハイステークスで多言語かつ画像に根ざした状況においてVLMを評価する新たな標準を確立します。また、e-governance（電子政府）における実用的な応用、公的部門の文書分析、そして公平な試験準備も支援します。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

EuraGovExam：実世界の文官採用試験に基づく多言語マルチモーダル・ベンチマーク

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer