みなさん、こんにちは。
しばらく前に、微調整したQwen3.5-2BのOCRモデルを共有しました。それ以来パイプラインの改良を続けていて、Qwen3.5-0.8Bに基づく新しいバージョンを先日リリースしました。
このモデルは改善された学習サンプルと、より良い出力フォーマットを使用しており、英語のアーカイブ化タスクやドキュメントOCRタスクにおいて、以前の2B版を上回っています。
このモデルは、HTMLテーブルを含むマークダウン優先のOCR出力、数式のためのLaTeX、図/画像のための[image]タグ、そしてチャート内容の抽出のための[chart: ...]を前提に学習されています。また、読み順の保存や、より複雑なレイアウトの扱いもより上手です。
モデルリンク: loay/English-Document-OCR-Qwen3.5-0.8B
近いうちに、アラビア語を含むほかの言語向けのバージョンや、より広範なRTL文書OCRの対応版もリリースする予定です。
ごちゃごちゃしたスキャンや想定外のケースで試してみた場合、その性能についてぜひ教えてください。
[リンク] [コメント]




