概要: 「OCR 2.0」と大規模ビジョン・言語モデル(VLM)の登場により、テキスト認識における新たなベンチマークが打ち立てられました。しかし、これらの統一アーキテクチャは、多くの場合、計算負荷が大きいこと、複雑なレイアウト内での正確なテキスト位置特定が難しいこと、そしてテキストの幻覚(ハルシネーション)が起きやすいことといった課題を伴います。モデル規模の拡大こそが高精度への唯一の道である、という従来の考え方を見直し、本論文では、5百万パラメータというわずかな規模で、入念に最適化された軽量OCRシステムであるPP-OCRv5を提案します。PP-OCRv5は、標準的なOCRベンチマークにおいて、多くの数十億パラメータのVLMに匹敵する性能を達成しつつ、位置特定精度がより高く、幻覚がより少ないことを示します。成功の要諦は、アーキテクチャの拡張ではなく、データ中心の探究にあります。私たちは、データの難しさ、データの正確さ、データの多様性という3つの重要な次元を定量化することで、学習データの役割を体系的に分解します。広範な実験の結果、高品質で、正確にラベル付けされ、多様性を備えたデータを十分な量用意することで、従来の効率的な2段階OCRパイプラインの性能上限は、一般に考えられているよりもはるかに高いことが明らかになりました。本研究は、大規模モデルの時代における軽量で特化したモデルの実現可能性を強く裏付けるとともに、OCRのためのデータキュレーションに関する実践的な洞察を提供します。ソースコードとモデルは https://github.com/PaddlePaddle/PaddleOCR で公開されています。
PP-OCRv5:OCRタスクで10億パラメータ級のビジョン・ランゲージモデルに匹敵する、特化型5Mパラメータモデル
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、約5Mパラメータのみを持つ特化型OCRモデルであるPP-OCRv5を提示し、一般的なOCRベンチマークにおいて多くの10億パラメータ級のビジョン・ランゲージモデルと競合することを示している。
- 精度はアーキテクチャのスケーリングだけで決まるわけではないと主張し、大規模で統合的なVLM(ビジョン・ランゲージモデル)型アプローチと比べて、局所化の精度が向上し、テキストの幻覚(誤生成)がより少ないことを示している。
- 著者らは性能向上の主因を、データ中心の最適化にあるとしており、学習データの難易度、精度、多様性が与える影響を体系的に分析している。
- 実験結果は、高品質で適切にラベル付けされ、多様性のあるデータを十分に大量に用意することで、効率的な2段階OCRパイプラインが到達し得る上限を、従来の典型的な仮定を超えて引き上げられることを示唆している。
- コードとモデルは、PaddlePaddleのPaddleOCRリポジトリを通じて公開されており、OCRシステムの実用的な導入と、データ整備(キュレーション)のための指針提供を目的としている。