更新: OCR向けにQwen3.5-0.8Bをファインチューニングしたところ、以前の2Bリリースよりも性能が向上した [GGUF]

Reddit r/LocalLLaMA / 2026/4/14

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、以前の2Bモデルから新しいQwen3.5-0.8Bバージョンへ切り替えた、更新版のQwen3.5 OCRファインチューニングを公開し、英語のアーカイブおよびドキュメントOCRタスクでより良い性能を報告している。
  • このモデルは、マークダウンを最優先とするOCR出力のために学習されており、構造化されたHTMLテーブル、数式のためのLaTeX、図のための画像タグ、さらに専用のチャート抽出構文などを含む。
  • 更新では、読み順のより強い保持や、より複雑なドキュメントレイアウトへの対応など、フォーマットとレイアウト処理の改善が強調されている。
  • 公開のHugging Faceモデルリンクが提示されており、著者は近日中に、アラビア語などを含む追加言語版のリリースや、より広範なRTL(右から左への言語)ドキュメントOCRのサポートを計画している。
  • 共同体からのフィードバックが求められており、特に手の込んだスキャンやエッジケースでのテストを通じて、頑健性を検証することが提案されている。

みなさん、こんにちは。

しばらく前に、微調整したQwen3.5-2BのOCRモデルを共有しました。それ以来パイプラインの改良を続けていて、Qwen3.5-0.8Bに基づく新しいバージョンを先日リリースしました。

このモデルは改善された学習サンプルと、より良い出力フォーマットを使用しており、英語のアーカイブ化タスクやドキュメントOCRタスクにおいて、以前の2B版を上回っています。

このモデルは、HTMLテーブルを含むマークダウン優先のOCR出力、数式のためのLaTeX、図/画像のための[image]タグ、そしてチャート内容の抽出のための[chart: ...]を前提に学習されています。また、読み順の保存や、より複雑なレイアウトの扱いもより上手です。

モデルリンク: loay/English-Document-OCR-Qwen3.5-0.8B

近いうちに、アラビア語を含むほかの言語向けのバージョンや、より広範なRTL文書OCRの対応版もリリースする予定です。

ごちゃごちゃしたスキャンや想定外のケースで試してみた場合、その性能についてぜひ教えてください。

提出者: /u/Other-Confusion2974
[リンク] [コメント]