DharmaOCR：構造化OCR向けの特化型スモール言語モデルがオープンソースおよび商用ベースラインを上回る

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、転写品質・生成の安定性・推論コスト低減を同時に最適化する構造化OCR向けの特化型スモール言語モデルとして、DharmaOCR Full（7B）とDharmaOCR Lite（3B）を提案している。
DharmaOCR-Benchmarkと統一評価プロトコルを導入し、忠実度と構造だけでなく「テキストの退化（degeneration）」を第一級の指標として、単位コストと並行して測定する。
OCRにDirect Preference Optimization（DPO）を適用し、退化した生成を「拒否例」としてループ挙動を罰することで、退化率を最大87.6%（相対）削減しつつ抽出品質を維持または向上させる。
DharmaOCR-Benchmarkで新たな最先端（SOTA）を達成し、抽出品質スコアはFullで0.925、Liteで0.911、退化率はそれぞれ0.40%と0.20%と非常に低い。
AWQ量子化により1ページ当たりコストを最大22%削減し、品質劣化はごくわずかで、プロプライエタリなOCR APIやオープンソース代替に対して質とコストのバランスが強いことを示している。

Abstract

本稿は、構造化OCRのための専用の小型言語モデル（SSLM）2機種であるDharmaOCR FullおよびLiteを紹介する。これらは転写品質、生成の安定性、推論コストを共同で最適化する。さらに、本稿では、印刷文書、手書き文書、ならびに法務/行政文書をカバーするベンチマークであるDharmaOCR-Benchmarkを提示し、テキストの劣化（degeneration）を一次のベンチマーク指標として明示的に追跡しつつ、忠実性と構造を測定する統一評価プロトコルを提案する（単位コストと並行して）。劣化率の報告にとどまらず、本稿は経験的に、劣化が単なる品質の失敗ではないことを示す。すなわち、応答時間を増加させ、スループットを低下させ、異常に長い生成により計算コストを膨張させることで、生産的な性能を実質的に悪化させるからである。著者の知る限り、方法論上の貢献として、本稿はOCRに対するDirect Preference Optimization（DPO）を初めて適用するものであり、ループ挙動を抑制するために、劣化した生成を棄却例（rejected examples）として明示的に用いる。厳密なJSONスキーマ（ヘッダ、マージン、フッタ、テキスト）を強制するためのSupervised Fine-Tuning（SFT）と組み合わせることで、DPOはモデル系統をまたいで一貫して劣化率を低減する（最大87.6%の相対的改善）。抽出品質は維持、あるいは改善される。得られたモデル、すなわちDharmaOCR Full（7B）およびDharmaOCR Lite（3B）は、DharmaOCR-Benchmarkにおいて新たな最先端の水準を確立し、抽出品質の観点で、評価した各オープンソースおよび商用のベースラインモデルを上回る。0.925と0.911のスコアを達成し、劣化率はそれぞれ0.40%および0.20%であった。AWQ量子化により、品質への損失がほとんどないまま、1ページあたりのコストを最大22%削減し、専用OCR APIやオープンソース代替手段と比較して強力な品質-コストのトレードオフを実現した。