llama-serverでPaddleOCR-VL-1.5を使って書籍をOCRする方法

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事では、PaddleOCR-VL-1.5(ビジョン・ランゲージモデル)をllama.cppのllama-server経由で使い、書籍のページ画像にOCRを行う方法を紹介しています。
  • 複雑なページレイアウト、表、テキストと図が混在する領域についても、かなりうまく処理できると報告されています。
  • 提案されているパイプラインは「レイアウト検出 → 領域ごとのOCR → Markdown/HTML(表用)への変換」で、ページ写真のフォルダ全体をエンドツーエンドで処理できます。
  • 設定例として、PaddleOCR-VL-1.5-GGUFとmmproj.gguf、さらにWindows上でVulkanバックエンドを使う構成が示され、ワークフローの参照リポジトリも共有されています。
  • 最後に、OCRにビジョン・ランゲージモデルを試した人がいるかを呼びかけています。
Using PaddleOCR-VL-1.5 with llama-server for book OCR

本のページに対するOCRとして、llama.cppのサーバー経由でPaddleOCR-VL-1.5を動かしています。複雑なレイアウト、表、そして文章/図が混在したページを、驚くほどうまく処理できます。

セットアップ:
- モデル:PaddleOCR-VL-1.5-GGUF + mmproj.gguf
- バックエンド:llama-server(Windows上のVulkan)
- パイプライン:レイアウト検出 → 領域OCR → HTMLの表を含むMarkdown

このパイプラインは、ページ写真のフォルダ全体をエンドツーエンドで処理できます。基本的に、1つのコマンドで本をデジタル化できます。

リポジトリ:https://github.com/akmalayari/ocr-book

OCRに向けて、他の方は視覚と言語のモデルを試したことはありますか?

投稿者 /u/Final-Frosting7742
[リンク] [コメント]