広告

ローカルでの構造化抽出向けに量子化された Qwen 3.5 9B LLM GGUF

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、請求書、契約書、財務レポートからの構造化抽出に合わせて調整された acervo-extractor-qwen3.5-9b モデルに対し、Q4_K_M の GGUF 量子化について説明しています。
  • float16 のベースラインと比べて、量子化モデルはディスク使用量を 4.7 GB(約 26%)に削減し、ピーク RAM を 5.7 GB に低減、また処理速度もわずかに向上しており、42.7 tok/s に対して 47.8 tok/s です。
  • レイテンシも改善しており、平均レイテンシが 23.4 ms から 20.9 ms に低下し、P95 も 30.2 ms から 26.9 ms になっています。一方で、パープレキシティは中程度の変化(19.54 対 18.43)にとどまります。
  • llama.cpp を用いた推論コード例が示されており、ローカルでの抽出タスク(機密性の高い財務・法務文書を対象としたエアギャップ運用を含む)を実行できます。
  • リポジトリには完全な量子化パイプラインとベンチマーク用スクリプトが含まれており、参照されている Q8_0 バリアントもあります。ダウンロード用の Hugging Face モデルリンクも提示されています。

"このファインチューニングは必要なことを正確に実行する" と "このファインチューニングは実際に私の手元のハードウェアで動く" のギャップが、構造化抽出のユースケースにおいて、ほとんどの専門特化モデルを死に至らしめるポイントです。

これを解決するために、acervo-extractor-qwen3.5-9b を Q4_K_M に量子化しました。これは、請求書、契約書、財務レポートから構造化データを抽出するためにファインチューニングされた 9B の Qwen 3.5 モデルです。

ベンチマーク(float16 と比較):

- ディスク: 4.7 GB vs 18 GB(元の 26%)

- RAM: 5.7 GB vs 20 GB(ピーク)

- スピード: 47.8 tok/s vs 42.7 tok/s(1.12x)

- 平均レイテンシ: 20.9 ms vs 23.4 ms | P95: 26.9 ms vs 30.2 ms

- パープレキシティ: 19.54 vs 18.43(+6%)

llama-cpp での使用:

llm = Llama(model_path="acervo-extractor-qwen3.5-9b-Q4_K_M.gguf", n_ctx=2048) output = llm("Extract key financial metrics from: [doc]", max_tokens=256, temperature=0.1) 

これで実際に解放されるもの:

エアギャップ環境で動作する、タスク特化型の抽出モデルです。機密性の高い財務または法務文書を扱うパイプラインにおいて、ローカル推論は好みではなく必須条件です。

Q8_0 もリポジトリにあります: RAM 10.7 GB、平均レイテンシ 22.1 ms、パープレキシティ 18.62(+1%)。

Hugging Face 上のモデル:

https://huggingface.co/daksh-neo/acervo-extractor-qwen3.5-9b-GGUF

参考: 完全な量子化パイプラインとベンチマーク用スクリプトが含まれています。同じファミリーの任意のモデルに合わせて適用してください。

投稿者 /u/gvij
[リンク] [コメント]

広告