更新: OCR向けにQwen3.5-0.8Bをファインチューニングしたところ、以前の2Bリリースよりも性能が向上した [GGUF]

Reddit r/LocalLLaMA / 2026/4/14

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、以前の2Bモデルから新しいQwen3.5-0.8Bバージョンへ切り替えた、更新版のQwen3.5 OCRファインチューニングを公開し、英語のアーカイブおよびドキュメントOCRタスクでより良い性能を報告している。
このモデルは、マークダウンを最優先とするOCR出力のために学習されており、構造化されたHTMLテーブル、数式のためのLaTeX、図のための画像タグ、さらに専用のチャート抽出構文などを含む。
更新では、読み順のより強い保持や、より複雑なドキュメントレイアウトへの対応など、フォーマットとレイアウト処理の改善が強調されている。
公開のHugging Faceモデルリンクが提示されており、著者は近日中に、アラビア語などを含む追加言語版のリリースや、より広範なRTL（右から左への言語）ドキュメントOCRのサポートを計画している。
共同体からのフィードバックが求められており、特に手の込んだスキャンやエッジケースでのテストを通じて、頑健性を検証することが提案されている。

みなさん、こんにちは。

しばらく前に、微調整したQwen3.5-2BのOCRモデルを共有しました。それ以来パイプラインの改良を続けていて、Qwen3.5-0.8Bに基づく新しいバージョンを先日リリースしました。

このモデルは改善された学習サンプルと、より良い出力フォーマットを使用しており、英語のアーカイブ化タスクやドキュメントOCRタスクにおいて、以前の2B版を上回っています。

このモデルは、HTMLテーブルを含むマークダウン優先のOCR出力、数式のためのLaTeX、図/画像のための[image]タグ、そしてチャート内容の抽出のための[chart: ...]を前提に学習されています。また、読み順の保存や、より複雑なレイアウトの扱いもより上手です。

近いうちに、アラビア語を含むほかの言語向けのバージョンや、より広範なRTL文書OCRの対応版もリリースする予定です。

ごちゃごちゃしたスキャンや想定外のケースで試してみた場合、その性能についてぜひ教えてください。

AI Business

AI Business

日経XTECH

日経XTECH

日経XTECH