私はQwen3.5-2BをOCR用にファインチューニングしました

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • 著者はQwen3.5-2Bのビジョン・ランゲージモデルを英語の左から右への文書OCRタスク向けにファインチューニングしました。
  • ファインチューニング済みモデルはHugging Faceのリポジトリ 'loay/English-Document-OCR-Qwen3.5-2B' で公開されています。
  • 著者は、特に扱いづらい文書やエッジケースでのモデルのパフォーマンスに関するユーザーフィードバックを求めています。
  • このリリースは、文書テキスト抽出のためにファインチューニングされた大規模マルチモーダル言語モデルを活用してOCR能力を向上させることを目指しています。

みなさん、こんにちは。

私はOCRタスク向けにビジョン・ランゲージモデルのファインチューニングに取り組んでおり、最新のリリースを共有したいと思います。これは英語の左から右に読む文書OCRに特化して最適化されたQwen3.5-2Bのファインチューニングモデルです。

モデルリンク: loay/English-Document-OCR-Qwen3.5-2B

特にごちゃごちゃした文書や特定のエッジケースで試してみた場合、ぜひフィードバックをいただけると嬉しいです。モデルの性能がどうかぜひ教えてください!