TLDR; OCRに過剰に支払いをしていたので、フラッグシップモデルと、より安価で古いモデルを比較しました。新しいミニベンチ+リーダーボード。自分のドキュメントをテストするための無料ツール。オープンソース。
私たちはOCR/ドキュメント抽出のワークフローを調べてきましたが、ずっと同じパターンを見かけていました:
多くのチームがレガシーなOCRパイプラインに固まっているか、あるいはデフォルトで最新/最大のモデルに頼ってLLM呼び出しに対してひどく過払いしているか、のどちらかです。
42種類の標準ドキュメントを厳選して用意し、すべてのモデルを同一条件で10回ずつ実行しました。合計7,560回の呼び出しです。結論の要点:標準的なOCRに関しては、小さくて古いモデルのほうが、プレミアム精度に匹敵しつつコストはほんの一部で済みます。
私たちはpass^n(スケール時の信頼性)、コスト/成功あたり、レイテンシ、重要フィールドの正確さを追跡しています。
すべてオープンソースです:https://github.com/ArbitrHq/ocr-mini-bench
リーダーボード:https://arbitrhq.ai/leaderboards/
ここで他の方が見ている内容と一致しているか気になります。
[link] [comments]




