ローカルでの構造化抽出向けに量子化された Qwen 3.5 9B LLM GGUF

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この記事では、請求書、契約書、財務レポートからの構造化抽出に合わせて調整された acervo-extractor-qwen3.5-9b モデルに対し、Q4_K_M の GGUF 量子化について説明しています。
float16 のベースラインと比べて、量子化モデルはディスク使用量を 4.7 GB（約 26%）に削減し、ピーク RAM を 5.7 GB に低減、また処理速度もわずかに向上しており、42.7 tok/s に対して 47.8 tok/s です。
レイテンシも改善しており、平均レイテンシが 23.4 ms から 20.9 ms に低下し、P95 も 30.2 ms から 26.9 ms になっています。一方で、パープレキシティは中程度の変化（19.54 対 18.43）にとどまります。
llama.cpp を用いた推論コード例が示されており、ローカルでの抽出タスク（機密性の高い財務・法務文書を対象としたエアギャップ運用を含む）を実行できます。
リポジトリには完全な量子化パイプラインとベンチマーク用スクリプトが含まれており、参照されている Q8_0 バリアントもあります。ダウンロード用の Hugging Face モデルリンクも提示されています。

"このファインチューニングは必要なことを正確に実行する" と "このファインチューニングは実際に私の手元のハードウェアで動く" のギャップが、構造化抽出のユースケースにおいて、ほとんどの専門特化モデルを死に至らしめるポイントです。

これを解決するために、acervo-extractor-qwen3.5-9b を Q4_K_M に量子化しました。これは、請求書、契約書、財務レポートから構造化データを抽出するためにファインチューニングされた 9B の Qwen 3.5 モデルです。

ベンチマーク（float16 と比較）:

- ディスク: 4.7 GB vs 18 GB（元の 26%）

- RAM: 5.7 GB vs 20 GB（ピーク）

- スピード: 47.8 tok/s vs 42.7 tok/s（1.12x）

- 平均レイテンシ: 20.9 ms vs 23.4 ms | P95: 26.9 ms vs 30.2 ms

- パープレキシティ: 19.54 vs 18.43（+6%）

llama-cpp での使用:

llm = Llama(model_path="acervo-extractor-qwen3.5-9b-Q4_K_M.gguf", n_ctx=2048) output = llm("Extract key financial metrics from: [doc]", max_tokens=256, temperature=0.1)

これで実際に解放されるもの:

エアギャップ環境で動作する、タスク特化型の抽出モデルです。機密性の高い財務または法務文書を扱うパイプラインにおいて、ローカル推論は好みではなく必須条件です。

Q8_0 もリポジトリにあります: RAM 10.7 GB、平均レイテンシ 22.1 ms、パープレキシティ 18.62（+1%）。

Hugging Face 上のモデル:

https://huggingface.co/daksh-neo/acervo-extractor-qwen3.5-9b-GGUF

参考: 完全な量子化パイプラインとベンチマーク用スクリプトが含まれています。同じファミリーの任意のモデルに合わせて適用してください。

投稿者 /u/gvij
[リンク] [コメント]