| (本投稿で言及されているすべてのファイル、アプリ、リポジトリへのリンクは、下部の「full post」リンクから見つけられます。) 文書の抹消(redaction)とレビュー作業のためのエージェント文書の抹消タスクは、テキストと視覚(ビジョン)機能、そして長い文書の各ページをレビューして抹消するための長文コンテキスト理解を必要とします。さらに、プライバシーも重要な要素です。そのため、可能な限りローカルのオープンソースモデルを使う強い動機があります。 この投稿(下部にリンク)では、エージェントのワークフローを使ってエンドツーエンドの抹消とレビューのタスクを行える可能性を調査し、オープンソースとクローズドソースの選択肢を比較します。 このタスクを行うために、オープンソースのDocument Redactionsアプリ/パッケージ(下にリンク)をエージェント的に利用することに基づいてスキルファイルを開発し、文書の抹消とレビューを行いました。このパッケージには、文書の抹消・レビュー機能のための複数のFastAPIエンドポイントを提供するGradio UIアプリが含まれています。使用したエージェントは、Hugging Face spaces上でこのアプリをデプロイしたものを利用しました。 以下は、現実の抹消タスクを反映している可能性のある、複雑な要件の幅をAIエージェントに与えるために選定した、エージェントへの指示です:
進めながら、画像エクスポートされたページ上で、抹消ボックスの位置の正確さを確認してください。 レビューを完了したら、更新したファイルを抹消アプリにアップロードして、新しい最終出力を作成してください。作業スペース内の 'output_final' サブフォルダに入れてください。 エージェントには、活字のテキストと、「noisy」な書類としてスキャンされた手書きおよび署名が混在する、全7ページの例示文書を抹消するよう指示しました。エージェントは、アプリを使って文書を抹消し、ページごとに進んで提案された抹消をレビューして修正し、その後、最終的に抹消されたPDFとログファイルを返す必要がありました。 この実験で答えたい主要な質問は3つありました: 1. どんなモデルでも、完全なエンドツーエンドの抹消とレビューのタスクを実行できますか? これがそもそも可能かどうかを確かめるため、まず Cursor 内で Sonnet 4.6 を試しました。 2. 小型のローカルモデルは、エージェント的な抹消とレビューのタスクを実行できますか? このタスクをそもそも小型のローカルモデルができるのかを見たかったのです。もし可能なら、完全にローカルでプライベートな抹消・レビューのワークフローが実現できる可能性が生まれます。そこで、ローカルシステム上で Qwen 3.6 27B と 35B A3B(4ビットに量子化し、24GB VRAM のGPU上で llama.cpp を使用)を、Hermes Agent(v0.11.0、commit 9d1b277e)で試しました。このモデルをデプロイするために使った docker compose ファイルは、(下にリンクする)文書抹消リポジトリにあります。 3. 最大級のオープンソースモデルは、抹消とレビューのタスクにおいてクローズドモデルに対抗できますか? 大規模なオープンソースモデルに基づく高性能なモデルを使って、このタスクを実行できるのかを確かめるためです。このため、Kimi 2.5 と、Cursor Composer 2.0(Kimi 2.5 をファインチューニングしたもの)を試しました。 調査結果(Findings)テストした各モデルの性能は、下の表に要約されています。
Cursor内のSonnet 4.6は、指示に従えて実行でき、概ね成功しました(ただし高コストでした)。 文書を抹消・レビューした後のSonnet 4.6の結果 - 署名があるスキャン文書ページの例 ローカルシステム上で(4ビットに量子化した)Qwen 3.6 27B と 35B A3B は、抹消とレビューのタスクを完了しましたが、出力の品質は良くありませんでした。署名を見落とすことが頻繁にあり、与えられた抹消ルールの全セットに従えませんでした。 文書を抹消・レビューした後のQwen 3.6 27B(4ビット量子化)の結果 - 署名があるスキャン文書ページの例 Kimi 2.5は意外にもQwenより大きくは改善しませんでした。Cursor Composer 2.0はKimiよりははるかに良い結果でしたが、Sonnetほどではなく、大規模モデルをファインチューニングすると性能が大きく向上し得ることを示しています。ただし、ページごとの抹消品質のばらつきはかなり大きいものでした。 |
結論
家庭用のハードウェア(24GBのVRAM)上で動作するローカルモデル(Qwen 3.6 27B 4 bit)が、全文の抹消(redaction)レビューのワークフローを実行できることに感心しました。もちろん、出力の品質は最大規模のモデルには比較できません。しかし、それでも実際にそれができるという事実は、比較的短い時間のうちに、完全にローカルでプライベートな抹消ワークフローが現実のものになる可能性を示唆しています。
結論として、最高のモデルを使っても、人間の抹消担当者に置き換わるレベルの品質を備えたエージェントによる完全なエンドツーエンドの抹消ワークフローは、現時点では実現できていません。ローカルモデルは、満足のいく水準でタスクを実行できるまでには、まだ大きく隔たりがあります。とはいえ、テストしたすべてのモデルは、ワークフロー内の手順に従い、適切なツールを呼び出すことはできました。つまり、スキルセットは揃っていて、あとはモデルの品質の問題です。AIモデルは一般的に性能が向上し続けていくため、1年か2年のうちには、すべてのローカルおよびクラウドのモデルがこのタスクをよりずっと上手く実行するようになると確信しています。このタスクで、新しいモデルが利用可能になるたびにベンチマークを継続していきます。
投稿者 /u/Sonnyjimmy[リンク] [コメント]




