みなさんこんにちは。Hugging FaceでDharmaOCRをオープンソースとして公開しました。モデルとデータセットはすべて公開されており、無料で利用でき、試すこともできます。
また、それを裏側で支えたすべての実験内容をまとめた論文も公開しました。手法を掘り下げたい方のために。
私たちは、SFT + DPOを用いてオープンソースのSLM(3Bおよび7Bパラメータ)を微調整し、GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6、Google Document AI、そしてOlmOCR、Deepseek-OCR、GLMOCR、Qwen3のようなオープンソース代替と比較して実行しました。
- 専用モデルがトップに:0.925(7B)および0.911(3B)。
- モデル自身の退化した出力を「拒否例」としてDPOを行うことで、失敗率を87.6%削減。
- AWQ量子化によりページごとの推論コストが約22%低下。性能への影響はごくわずか。
モデル & データセット: https://huggingface.co/Dharma-AI
[リンク] [コメント]




