書類からのテキスト抽出精度をオープンソースのAIモデルで比較してみた

Zenn / 2026/4/15

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

書類画像（スキャン等）からのテキスト抽出（OCR/ドキュメント理解）の精度を、オープンソースAIモデル同士で比較する取り組みを紹介しています。
比較の観点や前提（対象書類、評価方法、出力形式など）を明示し、モデル選定の判断材料になるように整理しています。
精度差がどこに現れるか（文字種・レイアウト・解像度などの要因）を観測し、実運用での期待値を調整できる示唆を与えています。
調査結果をもとに、用途に応じたモデルの使い分けや、次の改善に向けた方向性を示唆しています。

こんにちは、AI Labの神﨑睦人です。今回のプロジェクトでは、AIによる書類比較において、特にローカル環境で動作するSLM（小型言語モデル）を用いたプロトタイプを作成します。このプロジェクトにおけるポイントは、PDFドキュメントのOCR処理と、その結果をローカルのSLMまたはLLMに渡すことで必要な情報を抽出する一連のフローを構築することです。これにより、クラウドベースのLLMに依存しない、よりコスト効率や拡張性の高い文書解析システムの実現を目指しました。具体的には、未処理のPDFファイルを監視し、Azure Document Intelligenceを用いてOCR処理を行い、そ...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →