粗密(コース・トゥ・ファイン)な視覚処理でドキュメント解析の効率と性能を向上させる

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高解像度のドキュメント解析は非効率であると主張している。理由は、視覚トークン数(および計算量)が二次的に増大する一方で、背景など多くの冗長な視覚領域がドキュメント内に存在するためである。
  • 冗長な領域を抑制し、ページ上の意味的に妥当な部分に計算資源を集中させる粗密(コース・トゥ・ファイン)な視覚処理アーキテクチャ「PaddleOCR-VL」を提案する。
  • 有効な視覚トークンを予測・局在化するための軽量なValid Region Focus Module(VRFM)を導入し、局在化の手がかりと文脈的な関係性シグナルを用いる。
  • 詳細認識のために、コンパクトな0.9Bの視覚言語モデル(PaddleOCR-VL-0.9B)と組み合わせる。VRFMの出力により、画像全体を直接処理することを避ける形でガイドする。
  • 実験では、従来手法より高速な推論を実現し、さらに視覚トークン数とパラメータ数を大幅に削減しつつ、ページレベルの解析および要素レベルの認識において最先端の性能を報告している。コードとモデルはGitHubで公開されている。

Abstract

ドキュメント解析はきめ細かなタスクであり、画像解像度が性能に大きく影響します。ビジョン言語モデルを活用した高度な研究では、モデル性能を高めるために高解像度入力が有益である一方で、しばしばビジョン・トークン数が二次的に増加し、計算コストが大幅に上昇します。私たちは、この非効率性が、背景などの文書画像における実質的に冗長な視覚領域に起因すると考えます。これに対処するため、私たちは、冗長な領域を抑制しつつ意味的に関連する領域に焦点を当てる新しい coarse-to-fine(粗から精へ)アーキテクチャである PaddleOCR-VL を提案します。これにより、効率と性能の両方が向上します。具体的には、軽量な Valid Region Focus Module(VRFM:有効領域フォーカス・モジュール)を導入します。これは、ローカリゼーションと文脈的な関係予測の能力を活用して、有効なビジョン・トークンを特定します。続いて、VRFM の出力に導かれて大きな画像全体を直接処理しないようにしながら、詳細な認識を行うための、コンパクトでありながら強力な 0.9B のビジョン言語モデル(PaddleOCR-VL-0.9B)を設計し、学習させます。大規模な実験により、PaddleOCR-VL がページ単位の解析と要素単位の認識の両方において最先端の性能を達成することを示します。既存の解決策を大幅に上回り、最上位の VLM に対しても強い競争力を示し、さらに、かなり少ないビジョン・トークン数とパラメータを用いながら高速な推論を実現します。これは、正確で効率的な文書理解のための、ターゲット指向の coarse-to-fine 解析が有効であることを裏付けています。ソースコードとモデルは https://github.com/PaddlePaddle/PaddleOCR で公開されています。