2026年に最適なオープンソースOCRは?

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 本記事は、モバイルでスキャンしたPDFの大量バッチ(大規模処理)に対して、速くかつ高精度な「2026年の最良のオープンソースOCR」オプションは何かを尋ねています。
  • 著者はPaddleOCRのVL(視覚言語)アプローチなどの視覚言語OCRパイプラインを試したものの、精度はほぼ完璧に近い一方で、処理がとにかく遅いと感じています。
  • 著者は強力なGPU構成(RTX 6000 Pro Blackwell)を用意しており、スループットを高めるためにそれを活用できる推奨事項を求めています。
  • 議論は「精度のみ」ではなく、処理対象が10,000本以上のスキャン済みPDFといった実運用上の性能制約に焦点が当てられています。

10000個のスキャン済みPDF(モバイルからスキャンされたもの)を持っているとして、そういう規模でも十分に速くて正確なOCRが見つかりません。

PaddleOCRのVLパイプラインのようなさまざまなビジョン言語モデルを試したり、こちらで入手した別のものも使ってみました。ですが、ほぼ正確ではあるものの、あまりに遅すぎます。

私のGPUはかなり強力です。RTX 6000 pro blackwell です。

そこで、速さがとにかく桁違いに速く、なおかつ同時に正確でもあるものを何を動かせばいいのでしょうか。

によって送信 /u/coolzamasu
[link] [comments]

2026年に最適なオープンソースOCRは? | AI Navigate