DharmaOCR:構造化OCR向けの特化型スモール言語モデルがオープンソースおよび商用ベースラインを上回る
arXiv cs.CL / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、転写品質・生成の安定性・推論コスト低減を同時に最適化する構造化OCR向けの特化型スモール言語モデルとして、DharmaOCR Full(7B)とDharmaOCR Lite(3B)を提案している。
- DharmaOCR-Benchmarkと統一評価プロトコルを導入し、忠実度と構造だけでなく「テキストの退化(degeneration)」を第一級の指標として、単位コストと並行して測定する。
- OCRにDirect Preference Optimization(DPO)を適用し、退化した生成を「拒否例」としてループ挙動を罰することで、退化率を最大87.6%(相対)削減しつつ抽出品質を維持または向上させる。
- DharmaOCR-Benchmarkで新たな最先端(SOTA)を達成し、抽出品質スコアはFullで0.925、Liteで0.911、退化率はそれぞれ0.40%と0.20%と非常に低い。
- AWQ量子化により1ページ当たりコストを最大22%削減し、品質劣化はごくわずかで、プロプライエタリなOCR APIやオープンソース代替に対して質とコストのバランスが強いことを示している。




