| 本のページに対するOCRとして、llama.cppのサーバー経由でPaddleOCR-VL-1.5を動かしています。複雑なレイアウト、表、そして文章/図が混在したページを、驚くほどうまく処理できます。 セットアップ: このパイプラインは、ページ写真のフォルダ全体をエンドツーエンドで処理できます。基本的に、1つのコマンドで本をデジタル化できます。 リポジトリ:https://github.com/akmalayari/ocr-book OCRに向けて、他の方は視覚と言語のモデルを試したことはありますか? [リンク] [コメント] |
llama-serverでPaddleOCR-VL-1.5を使って書籍をOCRする方法
Reddit r/LocalLLaMA / 2026/4/26
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この記事では、PaddleOCR-VL-1.5(ビジョン・ランゲージモデル)をllama.cppのllama-server経由で使い、書籍のページ画像にOCRを行う方法を紹介しています。
- 複雑なページレイアウト、表、テキストと図が混在する領域についても、かなりうまく処理できると報告されています。
- 提案されているパイプラインは「レイアウト検出 → 領域ごとのOCR → Markdown/HTML(表用)への変換」で、ページ写真のフォルダ全体をエンドツーエンドで処理できます。
- 設定例として、PaddleOCR-VL-1.5-GGUFとmmproj.gguf、さらにWindows上でVulkanバックエンドを使う構成が示され、ワークフローの参照リポジトリも共有されています。
- 最後に、OCRにビジョン・ランゲージモデルを試した人がいるかを呼びかけています。




