AtlasOCR:Vision Language Modelsで最初のオープンソースDarija OCRモデルを構築する
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、Darija(モロッコ方言のアラビア語)に特化した最初のオープンソースOCRモデルとしてAtlasOCRを紹介し、3B(30億)パラメータのVision Language Modelを微調整することで構築したと述べている。
- Darija固有のデータセットのキュレーションと、(著者らの)OCRSmithライブラリによる合成テキスト生成、さらに入念に出所を確認した実世界サンプルを組み合わせたデータパイプラインを詳述している。
- 著者らは、Unslothを用いたパラメータ効率の高い微調整(Q-LoRA)によりQwen2.5-VL 3Bを効率的に学習し、学習ハイパーパラメータの最適化のためのアブレーション研究も行っている。
- AtlasOCRは、新しいベンチマーク(AtlasOCRBench)と、確立されたKITAB-Benchで評価され、報告によれば最先端の結果を達成し、Darijaおよび標準的なアラビア語OCRタスクにわたって強い汎化性能を示している。
- 本研究は、規模(スケール)への依存だけでなく、頑健性と転移可能性を重視することで、大規模なOCRシステムに対して競争力があるモデルであることを位置づけている。




