マルチモーダルOCR：文書からあらゆる要素を解析する

arXiv cs.CV / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

MOCRはdots.mocrを導入します。テキストとグラフィックスを統一的なテキスト表現に同時に解析するマルチモーダルOCRシステムで、チャート・図・表・アイコンを第一級の解析対象として扱います。
このアプローチは、異種の文書要素に対するエンドツーエンドの訓練を可能にし、グラフィック領域を再利用可能なコードレベルの教師信号へと変換し、マルチモーダル学習を促進します。
著者らはPDF、レンダリング済みのウェブページ、ネイティブSVG資産からデータエンジンを構築し、段階的な事前学習と監督付きファインチューニングを通じて、30億パラメータのコンパクトなモデルを訓練します。
評価では、dots.mocrは文書解析ベンチマークで上位に位置し、OCR Arena EloではGemini 3 Proに次ぐ2位を獲得、olmOCR Benchで新たな最先端スコア83.9を達成し、さらに画像からSVGへのタスクにおける構造化グラフィック解析でも優位性を示します。
本研究は、マルチモーダル事前学習のための大規模な画像-to-codeコーパスへ向けたスケーラブルな道筋を示しており、コードとモデルは公開されています。