"このファインチューニングは必要なことを正確に実行する" と "このファインチューニングは実際に私の手元のハードウェアで動く" のギャップが、構造化抽出のユースケースにおいて、ほとんどの専門特化モデルを死に至らしめるポイントです。
これを解決するために、acervo-extractor-qwen3.5-9b を Q4_K_M に量子化しました。これは、請求書、契約書、財務レポートから構造化データを抽出するためにファインチューニングされた 9B の Qwen 3.5 モデルです。
ベンチマーク(float16 と比較):
- ディスク: 4.7 GB vs 18 GB(元の 26%)
- RAM: 5.7 GB vs 20 GB(ピーク)
- スピード: 47.8 tok/s vs 42.7 tok/s(1.12x)
- 平均レイテンシ: 20.9 ms vs 23.4 ms | P95: 26.9 ms vs 30.2 ms
- パープレキシティ: 19.54 vs 18.43(+6%)
llama-cpp での使用:
llm = Llama(model_path="acervo-extractor-qwen3.5-9b-Q4_K_M.gguf", n_ctx=2048) output = llm("Extract key financial metrics from: [doc]", max_tokens=256, temperature=0.1) これで実際に解放されるもの:
エアギャップ環境で動作する、タスク特化型の抽出モデルです。機密性の高い財務または法務文書を扱うパイプラインにおいて、ローカル推論は好みではなく必須条件です。
Q8_0 もリポジトリにあります: RAM 10.7 GB、平均レイテンシ 22.1 ms、パープレキシティ 18.62(+1%)。
Hugging Face 上のモデル:
https://huggingface.co/daksh-neo/acervo-extractor-qwen3.5-9b-GGUF
参考: 完全な量子化パイプラインとベンチマーク用スクリプトが含まれています。同じファミリーの任意のモデルに合わせて適用してください。
[リンク] [コメント]




