こんにちは r/LocalLLaMA,
私は、初めてのモデルの量子化をリリースします。kai-os/Carnice-9b の 8-bit 対称 AWQ(W8A16)です。これは、vLLM と Marlin カーネルを使い、単一GPU推論環境で Ampere GPU(RTX 30シリーズ)向けに特に最適化されています。
kai-os/Carnice-9b は、Qwen/Qwen3.5-9B のための特殊なファインチューニングで、視覚コンポーネントを削除し、エージェント(Hermes Agent harness)のための純テキスト用途に Qwen3_5ForCausalLM アーキテクチャを採用しています。このアーキテクチャはまだ vLLM によってネイティブにはサポートされていません(PR #39316 待ちです)。
シームレスな読み込みを可能にするため、量子化済みのチェックポイントは、(元の Qwen/Qwen3.5-9B 設定に合わせて)重みを Qwen3_5ForConditionalGeneration アーキテクチャに再ラップします。これにより、vLLM がテキストのみ推論のための --language-model-only フラグで正しく提供できるようになります。
モデル: https://huggingface.co/TurbulenceDeterministe/Carnice-9b-W8A16-AWQ
ベンチマークのハイライト(ランダムデータセットでの vLLM ベンチ、単一 RTX 3090 + Marlin):
• 平均プロンプトスループット: 約 1,994 tokens/s
• 平均生成スループット: 約 222 tokens/s
Hermes エージェント環境に特化したいくつかのベンチマークを回します(Terminal Bench Lite と YC ベンチ)。手早い vibecheck ではかなり良さそうに見えています
簡単な vLLM の使用(単一 GPU):
vllm serve TurbulenceDeterministe/Carnice-9b-W8A16-AWQ \\ --max-model-len auto \\ --reasoning-parser qwen3 \\ --language-model-only \\ --tensor-parallel-size 1 今後の量子化を改善するためのフィードバックをぜひいただけると嬉しいです。ありがとうございます!
[リンク] [コメント]




