DharmaOCR:構造化OCR向けの特化型スモール言語モデルがオープンソースおよび商用ベースラインを上回る

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、転写品質・生成の安定性・推論コスト低減を同時に最適化する構造化OCR向けの特化型スモール言語モデルとして、DharmaOCR Full(7B)とDharmaOCR Lite(3B)を提案している。
  • DharmaOCR-Benchmarkと統一評価プロトコルを導入し、忠実度と構造だけでなく「テキストの退化(degeneration)」を第一級の指標として、単位コストと並行して測定する。
  • OCRにDirect Preference Optimization(DPO)を適用し、退化した生成を「拒否例」としてループ挙動を罰することで、退化率を最大87.6%(相対)削減しつつ抽出品質を維持または向上させる。
  • DharmaOCR-Benchmarkで新たな最先端(SOTA)を達成し、抽出品質スコアはFullで0.925、Liteで0.911、退化率はそれぞれ0.40%と0.20%と非常に低い。
  • AWQ量子化により1ページ当たりコストを最大22%削減し、品質劣化はごくわずかで、プロプライエタリなOCR APIやオープンソース代替に対して質とコストのバランスが強いことを示している。

Abstract

本稿は、構造化OCRのための専用の小型言語モデル(SSLM)2機種であるDharmaOCR FullおよびLiteを紹介する。これらは転写品質、生成の安定性、推論コストを共同で最適化する。さらに、本稿では、印刷文書、手書き文書、ならびに法務/行政文書をカバーするベンチマークであるDharmaOCR-Benchmarkを提示し、テキストの劣化(degeneration)を一次のベンチマーク指標として明示的に追跡しつつ、忠実性と構造を測定する統一評価プロトコルを提案する(単位コストと並行して)。劣化率の報告にとどまらず、本稿は経験的に、劣化が単なる品質の失敗ではないことを示す。すなわち、応答時間を増加させ、スループットを低下させ、異常に長い生成により計算コストを膨張させることで、生産的な性能を実質的に悪化させるからである。著者の知る限り、方法論上の貢献として、本稿はOCRに対するDirect Preference Optimization(DPO)を初めて適用するものであり、ループ挙動を抑制するために、劣化した生成を棄却例(rejected examples)として明示的に用いる。厳密なJSONスキーマ(ヘッダ、マージン、フッタ、テキスト)を強制するためのSupervised Fine-Tuning(SFT)と組み合わせることで、DPOはモデル系統をまたいで一貫して劣化率を低減する(最大87.6%の相対的改善)。抽出品質は維持、あるいは改善される。得られたモデル、すなわちDharmaOCR Full(7B)およびDharmaOCR Lite(3B)は、DharmaOCR-Benchmarkにおいて新たな最先端の水準を確立し、抽出品質の観点で、評価した各オープンソースおよび商用のベースラインモデルを上回る。0.925と0.911のスコアを達成し、劣化率はそれぞれ0.40%および0.20%であった。AWQ量子化により、品質への損失がほとんどないまま、1ページあたりのコストを最大22%削減し、専用OCR APIやオープンソース代替手段と比較して強力な品質-コストのトレードオフを実現した。