広告

OCRおよびリダクションタスクのためのQwen 3.5のテスト

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本投稿では、精密な単語/行のバウンディングボックスを必要とするタスクに焦点を当て、OCRおよび文書リダクション向けに複数のQwenビジョン言語モデルを評価する。
  • 難しい3つのシナリオ(行/単語のボックス付きの手書きOCR、顔を検出して完全に覆うこと、リダクション対象となるカスタムエンティティを見つけること)にわたって、著者はテストにdoc_redactionのオープンソースリポジトリを使用する。
  • 著者は、テストしたローカルで実行可能なモデルの中では、Qwen 3.5 27Bがリダクションのワークフローへ統合する最良の選択肢だと結論づける。
  • 重要な制約として、Qwen 3.5 27Bであっても、量子化設定などによっては行全体を見落とす可能性があり、そうした失敗を検出するために人手による検証を推奨している。
  • 顔のリダクションでは、モデルは顔を認識する傾向があるものの、それでもバウンディングボックスで顔を完全に覆いきれず、その結果リダクションがうまく機能しないことがある。
Testing Qwen 3.5 for OCR and redaction tasks

検閲(redaction)タスクにおけるOCRは、VLMにとってより難しいです。というのも、ページ上のすべての単語に対する正確なバウンディングボックスが、ページ上の単語を正しく隠すために不可欠だからです。最近まで、ほとんどのVLM(特にオープンソースのもの)はこのタスクが得意ではありませんでした。

2月上旬に、ここで私が行った、境界ボックスOCRおよび検閲タスクのための Qwen 3 VL 8B Instruct のテストを投稿しました。手書き文字に対する高い性能から、検閲ワークフローに適用できる可能性があるように見えました。それから Qwen 3.5 が登場し、この投稿では、これらのモデルに関する私の初期テストのいくつかについて述べます(全文リンクは下部)。

テスト用のモデルとタスク

私は、< 24GB VRAM で使用できる4つの Qwen モデル(Qwen 3 VL 8B、Qwen 3.5 9B、35B A3B、27B)を使い、3つの「難しい」OCR/検閲タスクで試しました。テストには、下記の投稿でもリンクされているオープンソースの doc_redaction リポジトリを使用しました。

  1. 難しい手書きに対するOCR/バウンディングボックス検出。 走り書きで読みにくい文字がある手書きページで、内容と行レベルのバウンディングボックスを特定します。
  2. ドキュメントページ内の顔写真の検出。 これには、顔全体をバウンディングボックスで正確に覆うことが含まれます。
  3. 検閲タスクのためのオープンテキスト中のカスタムエンティティの特定。 これは、ユーザーの指示に従って、オープンテキスト中にこれまでに見たことのないカスタムエンティティ種別を見つけ、文字位置(character position)によって関連するフレーズを特定することを含みます。

結果

私の結論として、私が試したすべてのモデルの中では、Qwen 3.5 27B が検閲ワークフローに組み込むのに最も適したローカルモデルです。

タスク1では、テキスト内容の読み取りと、すべての単語の囲い込みが非常に良好でした。以下を見てください:

タスク1:Qwen 3.5 27B(4-bit量子化)でのテキスト識別と位置特定

タスク1における Qwen 3.5 27B の性能についての唯一の注意点は、異なる quants/設定を使うと、モデルがテキストの行をまったく見落としてしまうことがあると分かったことです。これは、テキスト量が多いページで頻繁に見かける VLM の「怠け(laziness)」の症状です。それでも、このアプローチの結果については人手で確認することをおすすめします。

タスク2では、ページ上の2つの顔をうまく認識しましたが、私がテストした他のモデルと同様に、顔をバウンディングボックスで完全に覆いきれず、その結果として検閲が失敗しました:

タスク2:Qwen 3.5 27B(4-bit量子化)での顔の識別と位置特定

タスク3では、Qwen 3.5 27B の性能は良好で、以下の指示により、関連するすべてのテキストと相対的な文字位置を正しく特定しました(助けとしていくつかのPythonの事後処理を行っています):

“Lauren の名前を検閲(利用可能であれば常に氏名全体を覆う)。メールアドレスと電話番号をラベル LAUREN で検閲する。大学名はラベル UNIVERSITY で検閲する。利用可能であれば常に大学名全体を含める。”

タスク3:Qwen 3.5 27B(4-bit量子化)を用いたカスタムエンティティ検出のための検閲出力

このタスクで他のモデルをテストしたところ、約27Bより小さいモデルでは、うまくいないように見えました。

推奨

Qwen 3.5 27B は、私がテストしたモデルの中で最も良かったです。また、家庭用のGPUで実行できるVLM(VRAM 24GB以下)を使って検閲タスクを行えるだけの性能が、今のところは十分にあると思います。上記の結果を踏まえ、異なるタスクでの利用として私が推奨するのは以下です:

  • 一般的なOCR/検閲タスク: (順に)pymupdf のようなパッケージによる単純なテキスト抽出を使い、画像が含まれるページではハイブリッドOCR(私は PaddleOCR を使用)+Qwen 3.5 27B VLM のアプローチを使ってください。PaddleOCR はタイプされた「簡単な」テキストを処理し、Qwen 3.5 27B VLM は Paddle の自信が低い、より難しい行を処理します。
  • 非常に難しい手書きのあるドキュメント: ページ全体に対して Qwen 3.5 27B を使い、人手で確認し、さらにモデルが見落としたテキストを拾うために(そのモデル固有の「怠け」によって、すべてのテキストを特定できないことがあるため)2回目の実行を行う可能性もあります。
  • 顔または署名の検出: ページ全体に対して Qwen 3.5 27B を使い、必要に応じてバウンディングボックスを手動で調整して顔や署名を覆うようにします。必要なら、顔や署名の周囲のスペースも覆うように指示を調整するとよいでしょう。
  • カスタムエンティティの特定: カスタムエンティティを特定するタスクでは、Qwen 3.5 27B LLM を使ってください。

詳細は全文投稿で:

Qwen 3.5 によるOCRと検閲 - テスト結果付きの全文

ほかの方は、検閲タスクにVLMを使ってみたことはありますか?効果はありましたか、また信頼できるものでしたか?この用途で役に立つと感じた、Qwen 以外のVLMモデルはありますか?

投稿者: /u/Sonnyjimmy
[リンク] [コメント]

広告