VLMのOCRはデモが映える。本番で壊れる。

Zenn / 2026/5/2

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

VLM（Vision-Language Model）のOCRはデモ映えする一方、実運用の現場条件では性能が崩れやすいという問題意識を提示している
デモでは通るパターンと、本番で失敗するパターン（撮影条件・レイアウト・品質など）のギャップが大きい点が焦点
「VLMでOCRをやれば万能」という期待に対し、導入時点での現実的な評価・検証の重要性を強調している
“壊れる”原因を単なる精度不足ではなく、入力分布の違いに起因する再現性の欠如として捉える観点が示されている

はじめに VLM（Vision Language Model）でOCRを作ると、最初のデモはだいたい感動します。画像を投げたら「store_name: スーパーABC、total: ¥1,580」みたいなJSONが返ってくる。でも本番に持ち込むと壊れます。原因のほとんどは座標の幻覚でした。 VLMに座標を出させると何が起きるか GeminiやGPT-4oに「フィールドの座標も一緒に返して」とお願いすると、それっぽい数値は返ってきます。でもその座標、実際の画像上の位置とずれていることがかなりあります。 { "store_name": "スーパー ABC", "ve...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →