AtlasOCR:Vision Language Modelsで最初のオープンソースDarija OCRモデルを構築する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、Darija(モロッコ方言のアラビア語)に特化した最初のオープンソースOCRモデルとしてAtlasOCRを紹介し、3B(30億)パラメータのVision Language Modelを微調整することで構築したと述べている。
  • Darija固有のデータセットのキュレーションと、(著者らの)OCRSmithライブラリによる合成テキスト生成、さらに入念に出所を確認した実世界サンプルを組み合わせたデータパイプラインを詳述している。
  • 著者らは、Unslothを用いたパラメータ効率の高い微調整(Q-LoRA)によりQwen2.5-VL 3Bを効率的に学習し、学習ハイパーパラメータの最適化のためのアブレーション研究も行っている。
  • AtlasOCRは、新しいベンチマーク(AtlasOCRBench)と、確立されたKITAB-Benchで評価され、報告によれば最先端の結果を達成し、Darijaおよび標準的なアラビア語OCRタスクにわたって強い汎化性能を示している。
  • 本研究は、規模(スケール)への依存だけでなく、頑健性と転移可能性を重視することで、大規模なOCRシステムに対して競争力があるモデルであることを位置づけている。

Abstract

モロッコのアラビア語方言であるダリジャ(Darija)は視覚的コンテンツが豊富である一方、専用の光学式文字認識(OCR)ツールが不足している。本論文では、3Bパラメータのビジョン言語モデル(VLM)を微調整することで構築した最初のオープンソースのダリジャOCRモデルであるAtlasOCRを提案する。OCRSmithライブラリを用いた合成生成によるダリジャ固有のデータセットの厳選と、慎重に収集した実世界データの活用の両方を含めた、包括的なアプローチの詳細を述べる。さらに、効率的な微調整戦略の実装についても説明する。パラメータ効率の高い学習のためにQLoRAとUnslothを用いて、Qwen2.5-VL 3Bを学習し、主要なハイパーパラメータを最適化する包括的なアブレーション研究を提示する。新たに厳選したAtlasOCRBenchおよび既存のKITAB-Benchでの評価により、最先端の性能が示される。より大きなモデルに対して優位性を示し、ダリジャおよび標準アラビア語のOCR課題の双方に対するAtlasOCRの頑健性と汎化能力を明らかにする。