KazakhOCR: 低資源カザフ語の文字OCRにおけるマルチモーダルモデルを評価するための合成ベンチマーク
arXiv cs.CV / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- KazakhOCR は、カザフ語のアラビア文字・キリル文字・ラテン文字の 7,219 枚の画像を含む合成 OCR ベンチマークを導入し、OCR および言語識別タスクに対するマルチモーダルモデルを評価する。
- 著者らは Gemma-3-12B-it、Qwen2.5-VL-7B-Instruct、Llama-3.2-11B-Vision-Instruct を評価し、ラテン文字スクリプト OCR およびアラビア文字スクリプト OCR のいずれにおいても良好な性能を示さず、アラビア語のカザフ語テキストを他言語として誤分類することを発見した。
- 従来の OCR をベースラインと比較すると、伝統的な OCR の方が文字誤り率が低く、低資源スクリプトに対する現在の MLLM の能力不足を浮き彫りにしている。
- この結果は、低資源スクリプトと言語を支援するための包摂的なモデルとベンチマークの必要性を強調し、今後の研究とデータセット開発を促進する。
