AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

llama-serverでPaddleOCR-VL-1.5を使って書籍をOCRする方法

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事では、PaddleOCR-VL-1.5（ビジョン・ランゲージモデル）をllama.cppのllama-server経由で使い、書籍のページ画像にOCRを行う方法を紹介しています。
複雑なページレイアウト、表、テキストと図が混在する領域についても、かなりうまく処理できると報告されています。
提案されているパイプラインは「レイアウト検出 → 領域ごとのOCR → Markdown/HTML（表用）への変換」で、ページ写真のフォルダ全体をエンドツーエンドで処理できます。
設定例として、PaddleOCR-VL-1.5-GGUFとmmproj.gguf、さらにWindows上でVulkanバックエンドを使う構成が示され、ワークフローの参照リポジトリも共有されています。
最後に、OCRにビジョン・ランゲージモデルを試した人がいるかを呼びかけています。

Using PaddleOCR-VL-1.5 with llama-server for book OCR

本のページに対するOCRとして、llama.cppのサーバー経由でPaddleOCR-VL-1.5を動かしています。複雑なレイアウト、表、そして文章／図が混在したページを、驚くほどうまく処理できます。

セットアップ：
- モデル：PaddleOCR-VL-1.5-GGUF + mmproj.gguf
- バックエンド：llama-server（Windows上のVulkan）
- パイプライン：レイアウト検出 → 領域OCR → HTMLの表を含むMarkdown

このパイプラインは、ページ写真のフォルダ全体をエンドツーエンドで処理できます。基本的に、1つのコマンドで本をデジタル化できます。

リポジトリ：https://github.com/akmalayari/ocr-book

OCRに向けて、他の方は視覚と言語のモデルを試したことはありますか？

投稿者 /u/Final-Frosting7742
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/26Dailyインサイトを見る →

関連記事

Black Hat USA

Black Hat USA

AI Business

無料でプログラミングの専門知識がなくてもAIエージェントやワークフローを作成できるローコードプラットフォーム「Langflow」

無料でプログラミングの専門知識がなくてもAIエージェントやワークフローを作成できるローコードプラットフォーム「Langflow」

GIGAZINE

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

Dev.to

調査で判明：米国でのClaudeの週次アクティブユーザーは競合AIアシスタントよりもはるかに富裕層に偏る

調査で判明：米国でのClaudeの週次アクティブユーザーは競合AIアシスタントよりもはるかに富裕層に偏る

THE DECODER

従来型のモバイルベンダーがAI機能提供に失敗する理由：米国エンタープライズ向け2026分析

従来型のモバイルベンダーがAI機能提供に失敗する理由：米国エンタープライズ向け2026分析

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告