先日、C++/CUDA OCRサーバーについての投稿(18日前)へのフォローアップです。追加が2点あります:
新機能:
- レイアウトモデル: レイアウト検出のためにPP-StructureV3を追加
- 多言語対応: ラテン文字のみではなくなりました。現在、中国語、日本語、韓国語、キリル文字、アラビア語、ラテン文字の各言語に対応しています。
同じ構成です: C++、TensorRT FP16、マルチストリーム、gRPC/HTTP、pdfエンドポイントを直接指定可能。
ベンチマーク(Linux / RTX 5090 / CUDA 13.2):
- 文字量の非常に多い画像: 100+ img/s
- 疎/低文字量: 1,000+ img/s
- FUNSDデータセットで270p/s
[リンク] [コメント]




