AI Navigate

SEA-Vision:東南アジアにおける文書と場面文字の総合的理解のための多言語ベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SEA-Vision は、新たな多言語ベンチマークとして導入され、11の東南アジア諸言語にわたり、文書解析(Document Parsing)とテキスト中心のビジュアル質問応答(TEC-VQA)を共同で評価します。
  • 認識、計算、推論、および空間理解を探るため、9つの代表的な文書タイプにわたる15,234の文書解析ページと、7,496のTEC-VQA質問と回答を含みます。
  • 著者らは、自動フィルタリングとMLLM支援ラベリングを組み合わせ、軽量なネイティブスピーカー検証を組み込んだハイブリッドなラベリングパイプラインを用い、品質を維持しつつ手動ラベリングを削減しています。
  • 本研究は、リソースが乏しい東南アジア言語で顕著な性能低下を浮き彫りにし、多言語文書および場面文字理解における重大なギャップを強調しています。
  • 挑戦的なベンチマークを提供し、今後のモデル開発を指針とすることで、文書および場面文字理解の世界的な進展を促進することを目的としています。

要約: 多言語の文書および場面テキスト理解は、検索、金融、公共サービスなどのアプリケーションにおいて重要な役割を果たします。しかし、ほとんどの既存のベンチマークは高資源言語に焦点を当て、現実的な多言語環境でのモデル評価には失敗します。東南アジアでは、言語の多様性、複雑な表記体系、そして非常に多様な文書タイプがこの課題をさらに大きくします。我々は SEA-Vision を導入します。これは、11 言語にまたがる文書解析とテキスト中心ビジュアル質問応答(TEC-VQA)を共同評価するベンチマークです。SEA-Vision には、階層的なページレベル、ブロックレベル、および行レベルのラベルで注釈づけされた9つの代表的な文書タイプからなる 15,234 の文書解析ページが含まれています。さらに、テキスト認識、数値計算、比較分析、論理的推論、および空間理解を探る 7,496 件の TEC-VQA 質問応答ペアも提供します。多言語・多タスクの注釈を実現可能にするために、文書解析と TEC-VQA のハイブリッドパイプラインを設計しました。自動フィルタリングとスコアリングを、MLLM支援のラベリングと軽量なネイティブスピーカー検証と組み合わせ、手作業のラベリングを大幅に削減しつつ高品質を維持します。私たちは複数の主要なマルチモーダルモデルを評価し、資源が限られた東南アジア言語での性能低下が顕著であることを観察し、多言語文書および場面テキスト理解における顕著なギャップを浮き彫りにします。SEA-Vision が文書および場面テキスト理解の世界的な進歩を促すのに役立つと信じています。