ローカルLLMで画像PDFを読む:Gemma 4 / Qwen 3.5 Vision比較

Zenn / 2026/4/10

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Gemma 4 と Qwen 3.5 Vision を、ローカルLLM環境で「画像PDFを読む」用途に絞って比較し、どちらが適するかを検討する内容です。
  • 画像化されたPDFを対象にしたマルチモーダル処理を前提に、実行面での使い勝手や挙動の違いに焦点を当てています。
  • ローカルで完結させたいニーズ(外部へのデータ共有を避けたい等)に沿って、ローカルLLMでの実装・運用を意識した観点が提示されています。
  • 比較結果を、読取対象(画像PDF)という具体的なタスクに結びつけて判断できるように整理しています。
pdfminerでテキスト抽出できない画像ベースのPDF。ローカルLLMのVision機能でどこまで読めるのか。Gemma 4とQwen 3.5で検証した。 結論から言うと、3モデルとも読める。限られたサンプルでは数値精度に差は見られなかった。ただし大量ページではGemma 4が有利で、qwen3.5は60ページ超でVRAM上限に達する。gemma4:26b (MoE) が最速・最小VRAMで実用上の最良選択肢。 読み取り精度については追加検証が必要だが、速報として現時点での結果を掲載しておく。 検証環境 項目 内容 GPU NVIDIA RTX 5090 (32GB ...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →