INDOTABVQA: バハサ語(インドネシア語)文書における言語横断テーブル理解のためのベンチマーク

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsModels & Research

要点

  • INDOTABVQAは、実際のバハサ語(インドネシア語)文書画像に対する言語横断のテーブル視覚質問応答を対象とした新しいベンチマークとして導入され、4言語(バハサ語(インドネシア語)、英語、ヒンディー語、アラビア語)のQAセットと組み合わされる。
  • データセットには、3つの視覚スタイルにわたる1,593枚の文書画像と、テーブルの複雑さの多様性が含まれており、単言語および言語横断のVQAの双方で評価可能である。
  • ベンチマーク結果では、主要なVLM(Qwen2.5-VL、Gemma-3、LLaMA-3.2、GPT-4oを含む)に対して、特に構造的に複雑なテーブルや低リソース言語において大きな性能差が見られる。
  • 特定領域に向けた微調整により、精度が11.6%(コンパクトな3Bモデルの微調整)改善し、17.8%(7BモデルへのLoRA微調整)改善することが示されており、領域特化の学習が結果を実質的に押し上げられることが示唆される。
  • 明示的なテーブル領域の座標を追加入力として与えることで、さらに4〜7%の改善が得られ、構造を意識したテーブル推論における空間的な事前知識の有効性が強調される。

要旨: 本研究では、インドネシア語(Bahasa Indonesia)の現実世界のドキュメント画像に対して、クロスリンガル・表ビジュアル質問応答(VQA)を評価するためのベンチマークであるINDOTABVQAを紹介します。データセットは、3つの視覚スタイル(枠付き、枠なし、カラフル)にまたがる1,593枚のドキュメント画像で構成され、各画像には1つ以上の表が含まれます。また、4言語(インドネシア語、英語、ヒンディー語、アラビア語)に対して1,593件の質問-回答セットを用意しています。これにより、(インドネシア語のドキュメントにインドネシア語の質問を用いる)単一言語設定と、(インドネシア語のドキュメントに他言語の質問を用いる)クロスリンガル設定の両方で、ビジョン・言語モデル(VLM)を評価できます。私たちは、主要なオープンソースVLM(Qwen2.5-VL、Gemma-3、LLaMA-3.2)およびGPT-4oをベンチマークし、特に構造的に複雑な表や低リソース言語で大きな性能ギャップがあることを明らかにします。コンパクトな3Bと、LoRAで微調整した7Bモデルを本データセットで微調整すると、精度がそれぞれ11.6%および17.8%向上します。表領域の座標を追加入力として明示的に与えることで、性能はさらに4〜7%改善し、表ベース推論におけるSpatial prior(空間的事前知識)の価値が示されます。私たちの結果は、言語多様性のあるドメイン特化型データセットの重要性を強調し、狙いを定めた微調整によって、専門的なドキュメント理解タスクにおいてVLMの性能を大幅に高められることを示しています。INDOTABVQAは、特に世界の中でも十分に代表されていない地域における、クロスリンガルで構造を意識したドキュメント理解の研究を前進させるための価値あるリソースです。完全なデータセットは以下のHugging Faceでアクセスできます: https://huggingface.co/datasets/NusaBharat/INDOTABVQA}