MinerU-Diffusion: 拡散デコーディングによる逆レンダリングとして捉え直す文書OCR

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、文書OCRは本質的に左から右への自己回帰的生成を必要とせず、視覚的条件付けのもとでの逆レンダリングとして扱えると主張する。
  • MinerU-Diffusion を提案し、逐次デコーディングを置き換えるためにブロック単位のデコーダと並列な拡散デノイジングを用いる拡散ベースの文書OCRフレームワークである。
  • 不確実性に基づくカリキュラム学習戦略を導入し、安定した学習と長い系列に対する効率的な推論を支援する。
  • 実験では、自己回帰ベースラインに比べて頑健性が向上し、最大で 3.2 倍の高速なデコーディングが報告されており、Semantic Shuffle ベンチマークでも強い結果を示す。
  • ベンチマークの結果は、このアプローチが言語的な事前知識への依存度がより低く、視覚に基づくOCR能力により多く依拠していることを示唆する。