DharmaOCR:オープンソースの特化型SLM(3B)と、LLMおよび他のオープンソースモデルとのコスト・パフォーマンス比較【R】

Reddit r/MachineLearning / 2026/4/25

📰 ニュースIndustry & Market MovesModels & Research

要点

  • DharmaOCRがHugging Faceでオープンソース化され、モデルとデータセットは誰でも無料で利用・実験できる形で公開されています。
  • 同プロジェクトではSFTに加えてDPOでオープンソースSLM(3B/7B)を微調整し、GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6、Google Document AI、そして複数のOCRオープンソース代替とベンチマークしました。
  • 特化モデルは7Bと3Bでそれぞれ0.925、0.911というトップスコアを達成し、テストしたベースラインを上回りました。
  • DPOで「退化した出力」を拒否例として用いることで、失敗率が87.6%低下したと報告されています。
  • AWQ量子化により、ページあたりの推論コストを約22%削減しつつ、性能への影響はごく小さいとされています。

みなさんこんにちは。Hugging FaceでDharmaOCRをオープンソースとして公開しました。モデルとデータセットはすべて公開されており、無料で利用でき、試すこともできます。

また、それを裏側で支えたすべての実験内容をまとめた論文も公開しました。手法を掘り下げたい方のために。

私たちは、SFT + DPOを用いてオープンソースのSLM(3Bおよび7Bパラメータ)を微調整し、GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6、Google Document AI、そしてOlmOCR、Deepseek-OCR、GLMOCR、Qwen3のようなオープンソース代替と比較して実行しました。

- 専用モデルがトップに:0.925(7B)および0.911(3B)。

- モデル自身の退化した出力を「拒否例」としてDPOを行うことで、失敗率を87.6%削減。

- AWQ量子化によりページごとの推論コストが約22%低下。性能への影響はごくわずか。

モデル & データセット: https://huggingface.co/Dharma-AI

論文全文: https://arxiv.org/abs/2604.14314

論文サマリー: https://gist.science/paper/2604.14314

投稿者 /u/augusto_camargo3
[リンク] [コメント]