Turbo-OCRアップデート：レイアウトモデル＋マルチリンガル対応

Reddit r/LocalLLaMA / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

TurboOCRのOCRサーバは、ドキュメント構造をより適切に把握するためのレイアウト検出モデルとしてPP-StructureV3を追加するアップデートを行いました。
OCRの対応言語が拡張され、ラテン文字のみから中国語、日本語、韓国語、キリル文字、アラビア文字、追加のラテン文字言語までカバーするようになりました。
実装のベースは維持されており、C++/CUDA、TensorRT FP16、マルチストリーム処理、gRPC/HTTPのインターフェースに加え、PDFを直接扱うエンドポイントもそのままです。
Linux環境でRTX 5090・CUDA 13.2を使用したベンチマークでは、テキスト量が多い入力で100+ img/s、スカスカ/低テキストの入力で1,000+ img/s、FUNSDデータセットで270 p/sと非常に高いスループットが報告されています。
更新内容はGitHub（aiptimizer/TurboOCR）で公開されているため、高頻度の画像・PDF OCRワークフローにそのまま活用できます。

先日、C++/CUDA OCRサーバーについての投稿（18日前）へのフォローアップです。追加が2点あります：

新機能:

レイアウトモデル: レイアウト検出のためにPP-StructureV3を追加
多言語対応: ラテン文字のみではなくなりました。現在、中国語、日本語、韓国語、キリル文字、アラビア語、ラテン文字の各言語に対応しています。

同じ構成です: C++、TensorRT FP16、マルチストリーム、gRPC/HTTP、pdfエンドポイントを直接指定可能。

ベンチマーク（Linux / RTX 5090 / CUDA 13.2）:

文字量の非常に多い画像: 100+ img/s
疎/低文字量: 1,000+ img/s
FUNSDデータセットで270p/s

出典: github.com/aiptimizer/TurboOCR

投稿者: /u/Civil-Image5411
[リンク] [コメント]

Black Hat USA

AI Business

NTTグループの施設管理DX、AIでBIMから情報引き出す実験開始

日経XTECH

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

日経XTECH

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

日経XTECH

AIに最重要の「極端紫外線（EUV）露光装置」を独占級に持つASMLが、より多くの生産に向け急ぐ

THE DECODER

Turbo-OCRアップデート：レイアウトモデル＋マルチリンガル対応

要点

関連記事

Black Hat USA

NTTグループの施設管理DX、AIでBIMから情報引き出す実験開始

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

AIに最重要の「極端紫外線（EUV）露光装置」を独占級に持つASMLが、より多くの生産に向け急ぐ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

NTTグループの施設管理DX、AIでBIMから情報引き出す実験開始

光電融合の業界地図、AI需要で「バブルの様相」 日本は光源に強み

先端防衛網を突破、航続距離2倍 イラン製格安軍事ドローンの破壊力

AIに最重要の「極端紫外線（EUV）露光装置」を独占級に持つASMLが、より多くの生産に向け急ぐ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力