OCRで18のLLMをベンチマーク（7,000回超の呼び出し）—安価で古いモデルが勝つことが多い。データセットとフレームワークをオープンソース

Reddit r/MachineLearning / 2026/4/23

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者らは、OCR/ドキュメント抽出を対象に、42種類の標準ドキュメントを使って18のLLMをベンチマークし、各モデル10回ずつ（合計7,560回）を同一条件で実行しました。
主な結論は、小型または旧型のモデルがプレミアム並みのOCR精度を、価格の一部で達成できるケースが多いという点で、最新・最大モデルにデフォルトして過払いしているチームが多い可能性を示しています。
評価は、スケール時の信頼性（pass^n）、コスト/成功、レイテンシー、重要フィールドの精度といった実運用上の実務指標に基づいて行われています。
「ocr-mini-bench」のGitHubでデータセット/フレームワークをオープンソース化し、公開リーダーボードと、自分のドキュメントを試せる無料ツールも提供しています。
投稿では、他の人たちのOCRワークフローでも同様の「コスト/精度」傾向が見られるかを呼びかけています。

TLDR; OCRに過剰に支払いをしていたので、フラッグシップモデルと、より安価で古いモデルを比較しました。新しいミニベンチ＋リーダーボード。自分のドキュメントをテストするための無料ツール。オープンソース。

私たちはOCR／ドキュメント抽出のワークフローを調べてきましたが、ずっと同じパターンを見かけていました：

多くのチームがレガシーなOCRパイプラインに固まっているか、あるいはデフォルトで最新／最大のモデルに頼ってLLM呼び出しに対してひどく過払いしているか、のどちらかです。

42種類の標準ドキュメントを厳選して用意し、すべてのモデルを同一条件で10回ずつ実行しました。合計7,560回の呼び出しです。結論の要点：標準的なOCRに関しては、小さくて古いモデルのほうが、プレミアム精度に匹敵しつつコストはほんの一部で済みます。

私たちはpass^n（スケール時の信頼性）、コスト／成功あたり、レイテンシ、重要フィールドの正確さを追跡しています。

ここで他の方が見ている内容と一致しているか気になります。