Turbo-OCRアップデート:レイアウトモデル+マルチリンガル対応

Reddit r/LocalLLaMA / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • TurboOCRのOCRサーバは、ドキュメント構造をより適切に把握するためのレイアウト検出モデルとしてPP-StructureV3を追加するアップデートを行いました。
  • OCRの対応言語が拡張され、ラテン文字のみから中国語、日本語、韓国語、キリル文字、アラビア文字、追加のラテン文字言語までカバーするようになりました。
  • 実装のベースは維持されており、C++/CUDA、TensorRT FP16、マルチストリーム処理、gRPC/HTTPのインターフェースに加え、PDFを直接扱うエンドポイントもそのままです。
  • Linux環境でRTX 5090・CUDA 13.2を使用したベンチマークでは、テキスト量が多い入力で100+ img/s、スカスカ/低テキストの入力で1,000+ img/s、FUNSDデータセットで270 p/sと非常に高いスループットが報告されています。
  • 更新内容はGitHub(aiptimizer/TurboOCR)で公開されているため、高頻度の画像・PDF OCRワークフローにそのまま活用できます。

先日、C++/CUDA OCRサーバーについての投稿(18日前)へのフォローアップです。追加が2点あります:

新機能:

  • レイアウトモデル: レイアウト検出のためにPP-StructureV3を追加
  • 多言語対応: ラテン文字のみではなくなりました。現在、中国語、日本語、韓国語、キリル文字、アラビア語、ラテン文字の各言語に対応しています。

同じ構成です: C++、TensorRT FP16、マルチストリーム、gRPC/HTTP、pdfエンドポイントを直接指定可能。

ベンチマーク(Linux / RTX 5090 / CUDA 13.2):

  • 文字量の非常に多い画像: 100+ img/s
  • 疎/低文字量: 1,000+ img/s
  • FUNSDデータセットで270p/s

出典: github.com/aiptimizer/TurboOCR

投稿者: /u/Civil-Image5411
[リンク] [コメント]