マルチモーダルOCR:文書からあらゆる要素を解析する
arXiv cs.CV / 2026/3/16
📰 ニュースTools & Practical UsageModels & Research
要点
- MOCRはdots.mocrを導入します。テキストとグラフィックスを統一的なテキスト表現に同時に解析するマルチモーダルOCRシステムで、チャート・図・表・アイコンを第一級の解析対象として扱います。
- このアプローチは、異種の文書要素に対するエンドツーエンドの訓練を可能にし、グラフィック領域を再利用可能なコードレベルの教師信号へと変換し、マルチモーダル学習を促進します。
- 著者らはPDF、レンダリング済みのウェブページ、ネイティブSVG資産からデータエンジンを構築し、段階的な事前学習と監督付きファインチューニングを通じて、30億パラメータのコンパクトなモデルを訓練します。
- 評価では、dots.mocrは文書解析ベンチマークで上位に位置し、OCR Arena EloではGemini 3 Proに次ぐ2位を獲得、olmOCR Benchで新たな最先端スコア83.9を達成し、さらに画像からSVGへのタスクにおける構造化グラフィック解析でも優位性を示します。
- 本研究は、マルチモーダル事前学習のための大規模な画像-to-codeコーパスへ向けたスケーラブルな道筋を示しており、コードとモデルは公開されています。
関連記事
Translator
Azure OpenAI Service ドキュメント
200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。
Reddit r/artificial
すべてのPRをセキュリティバグでレビューするAIを作った — その方法(2026)
Dev.to
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法
Dev.to