ドキュメントのエンドツーエンド抹消・レビュー用エージェント(OCRとPII特定:Qwen 3.6 vs クローズドソース比較)

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • この投稿では、OCRとローカルでのPII(個人情報)特定を組み合わせて、プライバシーに配慮したドキュメント抹消・レビューをエンドツーエンドで行うAIエージェントのワークフローを検討しています。
  • Gradio/FastAPIベースのドキュメント抹消アプリをHugging Face Spacesでデプロイし、それを操作する「スキルファイル」を用意して、Paddle OCRまたはTesseractの使い分けなども含めて手順化しています。
  • エージェントは、まずPDFをページごとに抹消し、その後は抹消結果を明確なルール(特定の国名関連ボックスの削除、ルディ・ジュリアーニの抹消削除、署名の追加、該当語を覆うためのボックス位置・サイズの目視確認など)に従って再チェックし修正します。
  • Qwen 3.6を含むオープンソースの選択肢と、クローズドソースのアプローチを比較し、抹消タスクに対する実用面での評価を狙っています。
  • ボックスのサイズ/位置の視覚的検証と、偽陽性を減らしつつPIIが適切に保護されているかの確認を重視した手法です。
文書のエンドツーエンドの抹消(redaction)とレビューのためのエージェント(OCRとPII識別 - Qwen 3.6 vs クローズドソース比較)

(本投稿で言及されているすべてのファイル、アプリ、リポジトリへのリンクは、下部の「full post」リンクから見つけられます。)

文書の抹消(redaction)とレビュー作業のためのエージェント

文書の抹消タスクは、テキストと視覚(ビジョン)機能、そして長い文書の各ページをレビューして抹消するための長文コンテキスト理解を必要とします。さらに、プライバシーも重要な要素です。そのため、可能な限りローカルのオープンソースモデルを使う強い動機があります。

この投稿(下部にリンク)では、エージェントのワークフローを使ってエンドツーエンドの抹消とレビューのタスクを行える可能性を調査し、オープンソースとクローズドソースの選択肢を比較します。

このタスクを行うために、オープンソースのDocument Redactionsアプリ/パッケージ(下にリンク)をエージェント的に利用することに基づいてスキルファイルを開発し、文書の抹消とレビューを行いました。このパッケージには、文書の抹消・レビュー機能のための複数のFastAPIエンドポイントを提供するGradio UIアプリが含まれています。使用したエージェントは、Hugging Face spaces上でこのアプリをデプロイしたものを利用しました。

以下は、現実の抹消タスクを反映している可能性のある、複雑な要件の幅をAIエージェントに与えるために選定した、エージェントへの指示です:

doc-redaction-app スキルを使って、このPDF文書を {document-location} の場所から、{app-location} にホストされている抹消ツールを使って抹消してください。paddle OCR メソッドが利用可能ならそれを使い、利用できない場合は tesseract を使ってください。Local PII識別メソッドを使用してください。結果を作業スペース内の 'output' というフォルダに保存してください。

次に、doc-redaction-modifications スキルを使って、抹消内容を確認してください。抹消タスクの出力ファイルを使い、各ページの抹消結果を確認し、以下のルールに従って抹消の削除/追加/修正を行いたいです:

- 国名に関する一般的な記述に紐づく抹消ボックスはすべて削除する

- Rudy Giuliani に関するすべての抹消は削除する

- 抹消ボックスのサイズと位置を目視で確認し、関連する語句を完全に覆っていることを確かめる

- 署名(サイン)には抹消を追加する

- London への言及、および 'Sister City' はすべて抹消する

- 残っているすべての抹消ボックスが、真にPIIであり、誤検知ではないことを確認する

- その他の真のPIIを見逃していないこと、そして抹消ボックスで覆われていることを確認する。

進めながら、画像エクスポートされたページ上で、抹消ボックスの位置の正確さを確認してください。

レビューを完了したら、更新したファイルを抹消アプリにアップロードして、新しい最終出力を作成してください。作業スペース内の 'output_final' サブフォルダに入れてください。

エージェントには、活字のテキストと、「noisy」な書類としてスキャンされた手書きおよび署名が混在する、全7ページの例示文書を抹消するよう指示しました。エージェントは、アプリを使って文書を抹消し、ページごとに進んで提案された抹消をレビューして修正し、その後、最終的に抹消されたPDFとログファイルを返す必要がありました。

この実験で答えたい主要な質問は3つありました:

1. どんなモデルでも、完全なエンドツーエンドの抹消とレビューのタスクを実行できますか?

これがそもそも可能かどうかを確かめるため、まず Cursor 内で Sonnet 4.6 を試しました。

2. 小型のローカルモデルは、エージェント的な抹消とレビューのタスクを実行できますか?

このタスクをそもそも小型のローカルモデルができるのかを見たかったのです。もし可能なら、完全にローカルでプライベートな抹消・レビューのワークフローが実現できる可能性が生まれます。そこで、ローカルシステム上で Qwen 3.6 27B と 35B A3B(4ビットに量子化し、24GB VRAM のGPU上で llama.cpp を使用)を、Hermes Agent(v0.11.0、commit 9d1b277e)で試しました。このモデルをデプロイするために使った docker compose ファイルは、(下にリンクする)文書抹消リポジトリにあります。

3. 最大級のオープンソースモデルは、抹消とレビューのタスクにおいてクローズドモデルに対抗できますか? 大規模なオープンソースモデルに基づく高性能なモデルを使って、このタスクを実行できるのかを確かめるためです。このため、Kimi 2.5 と、Cursor Composer 2.0(Kimi 2.5 をファインチューニングしたもの)を試しました。

調査結果(Findings)

テストした各モデルの性能は、下の表に要約されています。

Model Rating Positives Negatives
Sonnet 4.6(Cursor内) 8.0 概ね品質が良く、各ページで抹消が正確 非常に高コスト(7ページで約$1.62)
Composer 2.0(Cursor内でKimi 2.5をファインチューニング) 7.5 Kimi 2.5より怠けがずっと少なく、抹消の品質が良い。Sonnet 4.6より速く、安い 不安定 - 一部のページでは怠けてしまい、他は非常に良い。
Qwen 3.6 27B(4ビット、Hermes Agent内) 4.0 ワークフローを完了し、ツールを正しく使用。完全にプライベートなデプロイの可能性、APIトークン費用0 指示に対して概ね怠け気味。抹消ボックスの位置の誤り(特に署名)。時間がかかった。
Kimi 2.5(Cursor内) 3.5 ワークフローを完了し、ツールを正しく使用。Sonnetより安い 非常に怠けており、指示に確実に従えない。抹消ボックスの配置が悪い(特に署名)

Cursor内のSonnet 4.6は、指示に従えて実行でき、概ね成功しました(ただし高コストでした)。

文書を抹消・レビューした後のSonnet 4.6の結果 - 署名があるスキャン文書ページの例

ローカルシステム上で(4ビットに量子化した)Qwen 3.6 27B と 35B A3B は、抹消とレビューのタスクを完了しましたが、出力の品質は良くありませんでした。署名を見落とすことが頻繁にあり、与えられた抹消ルールの全セットに従えませんでした。

文書を抹消・レビューした後のQwen 3.6 27B(4ビット量子化)の結果 - 署名があるスキャン文書ページの例

Kimi 2.5は意外にもQwenより大きくは改善しませんでした。Cursor Composer 2.0はKimiよりははるかに良い結果でしたが、Sonnetほどではなく、大規模モデルをファインチューニングすると性能が大きく向上し得ることを示しています。ただし、ページごとの抹消品質のばらつきはかなり大きいものでした。

結論

家庭用のハードウェア(24GBのVRAM)上で動作するローカルモデル(Qwen 3.6 27B 4 bit)が、全文の抹消(redaction)レビューのワークフローを実行できることに感心しました。もちろん、出力の品質は最大規模のモデルには比較できません。しかし、それでも実際にそれができるという事実は、比較的短い時間のうちに、完全にローカルでプライベートな抹消ワークフローが現実のものになる可能性を示唆しています。

結論として、最高のモデルを使っても、人間の抹消担当者に置き換わるレベルの品質を備えたエージェントによる完全なエンドツーエンドの抹消ワークフローは、現時点では実現できていません。ローカルモデルは、満足のいく水準でタスクを実行できるまでには、まだ大きく隔たりがあります。とはいえ、テストしたすべてのモデルは、ワークフロー内の手順に従い、適切なツールを呼び出すことはできました。つまり、スキルセットは揃っていて、あとはモデルの品質の問題です。AIモデルは一般的に性能が向上し続けていくため、1年か2年のうちには、すべてのローカルおよびクラウドのモデルがこのタスクをよりずっと上手く実行するようになると確信しています。このタスクで、新しいモデルが利用可能になるたびにベンチマークを継続していきます。

すべての結果を含む全文へのリンク

ドキュメント抹消アプリのリポジトリへのリンク

投稿者 /u/Sonnyjimmy
[リンク] [コメント]