| 検閲(redaction)タスクにおけるOCRは、VLMにとってより難しいです。というのも、ページ上のすべての単語に対する正確なバウンディングボックスが、ページ上の単語を正しく隠すために不可欠だからです。最近まで、ほとんどのVLM(特にオープンソースのもの)はこのタスクが得意ではありませんでした。 2月上旬に、ここで私が行った、境界ボックスOCRおよび検閲タスクのための Qwen 3 VL 8B Instruct のテストを投稿しました。手書き文字に対する高い性能から、検閲ワークフローに適用できる可能性があるように見えました。それから Qwen 3.5 が登場し、この投稿では、これらのモデルに関する私の初期テストのいくつかについて述べます(全文リンクは下部)。 テスト用のモデルとタスク 私は、< 24GB VRAM で使用できる4つの Qwen モデル(Qwen 3 VL 8B、Qwen 3.5 9B、35B A3B、27B)を使い、3つの「難しい」OCR/検閲タスクで試しました。テストには、下記の投稿でもリンクされているオープンソースの doc_redaction リポジトリを使用しました。
結果 私の結論として、私が試したすべてのモデルの中では、Qwen 3.5 27B が検閲ワークフローに組み込むのに最も適したローカルモデルです。 タスク1では、テキスト内容の読み取りと、すべての単語の囲い込みが非常に良好でした。以下を見てください: タスク1:Qwen 3.5 27B(4-bit量子化)でのテキスト識別と位置特定 タスク1における Qwen 3.5 27B の性能についての唯一の注意点は、異なる quants/設定を使うと、モデルがテキストの行をまったく見落としてしまうことがあると分かったことです。これは、テキスト量が多いページで頻繁に見かける VLM の「怠け(laziness)」の症状です。それでも、このアプローチの結果については人手で確認することをおすすめします。 タスク2では、ページ上の2つの顔をうまく認識しましたが、私がテストした他のモデルと同様に、顔をバウンディングボックスで完全に覆いきれず、その結果として検閲が失敗しました: タスク2:Qwen 3.5 27B(4-bit量子化)での顔の識別と位置特定 タスク3では、Qwen 3.5 27B の性能は良好で、以下の指示により、関連するすべてのテキストと相対的な文字位置を正しく特定しました(助けとしていくつかのPythonの事後処理を行っています): “Lauren の名前を検閲(利用可能であれば常に氏名全体を覆う)。メールアドレスと電話番号をラベル LAUREN で検閲する。大学名はラベル UNIVERSITY で検閲する。利用可能であれば常に大学名全体を含める。” タスク3:Qwen 3.5 27B(4-bit量子化)を用いたカスタムエンティティ検出のための検閲出力 このタスクで他のモデルをテストしたところ、約27Bより小さいモデルでは、うまくいないように見えました。 推奨 Qwen 3.5 27B は、私がテストしたモデルの中で最も良かったです。また、家庭用のGPUで実行できるVLM(VRAM 24GB以下)を使って検閲タスクを行えるだけの性能が、今のところは十分にあると思います。上記の結果を踏まえ、異なるタスクでの利用として私が推奨するのは以下です:
詳細は全文投稿で: Qwen 3.5 によるOCRと検閲 - テスト結果付きの全文 ほかの方は、検閲タスクにVLMを使ってみたことはありますか?効果はありましたか、また信頼できるものでしたか?この用途で役に立つと感じた、Qwen 以外のVLMモデルはありますか? [リンク] [コメント] |
OCRおよびリダクションタスクのためのQwen 3.5のテスト
Reddit r/LocalLLaMA / 2026/3/29
💬 オピニオンTools & Practical UsageModels & Research
要点
- 本投稿では、精密な単語/行のバウンディングボックスを必要とするタスクに焦点を当て、OCRおよび文書リダクション向けに複数のQwenビジョン言語モデルを評価する。
- 難しい3つのシナリオ(行/単語のボックス付きの手書きOCR、顔を検出して完全に覆うこと、リダクション対象となるカスタムエンティティを見つけること)にわたって、著者はテストにdoc_redactionのオープンソースリポジトリを使用する。
- 著者は、テストしたローカルで実行可能なモデルの中では、Qwen 3.5 27Bがリダクションのワークフローへ統合する最良の選択肢だと結論づける。
- 重要な制約として、Qwen 3.5 27Bであっても、量子化設定などによっては行全体を見落とす可能性があり、そうした失敗を検出するために人手による検証を推奨している。
- 顔のリダクションでは、モデルは顔を認識する傾向があるものの、それでもバウンディングボックスで顔を完全に覆いきれず、その結果リダクションがうまく機能しないことがある。



