粗密(コース・トゥ・ファイン)な視覚処理でドキュメント解析の効率と性能を向上させる
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高解像度のドキュメント解析は非効率であると主張している。理由は、視覚トークン数(および計算量)が二次的に増大する一方で、背景など多くの冗長な視覚領域がドキュメント内に存在するためである。
- 冗長な領域を抑制し、ページ上の意味的に妥当な部分に計算資源を集中させる粗密(コース・トゥ・ファイン)な視覚処理アーキテクチャ「PaddleOCR-VL」を提案する。
- 有効な視覚トークンを予測・局在化するための軽量なValid Region Focus Module(VRFM)を導入し、局在化の手がかりと文脈的な関係性シグナルを用いる。
- 詳細認識のために、コンパクトな0.9Bの視覚言語モデル(PaddleOCR-VL-0.9B)と組み合わせる。VRFMの出力により、画像全体を直接処理することを避ける形でガイドする。
- 実験では、従来手法より高速な推論を実現し、さらに視覚トークン数とパラメータ数を大幅に削減しつつ、ページレベルの解析および要素レベルの認識において最先端の性能を報告している。コードとモデルはGitHubで公開されている。