[リリース] Carnice-9b-W8A16-AWQ – Ampere GPU向け（シングルGPU）のvLLM + Marlinで最適化されたAWQ量子化

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本投稿では、kai-os/Carnice-9bモデルの8ビット対称AWQ量子化版（W8A16）をリリースする。対象はAmpere（RTX 30シリーズ）上で、Marlinカーネルを用いたvLLMによるシングルGPU推論。
Carnice-9bは、テキストのみ／エージェント的な用途向けに適応されたQwen/Qwen3.5-9Bのファインチューニングとして説明されており、視覚コンポーネントは削除されている。基盤はQwen3_5ForCausalLMで、vLLMで正しく読み込めるように互換性のためのラッピング（再ラップ）手順を行い、Qwen3_5ForConditionalGenerationとしてロードできるようにしている。
著者は、vLLMが現時点で基盤となるQwen3_5ForCausalLMアーキテクチャをネイティブにサポートしていないと述べている（vLLMの未対応PRへの言及あり）。そのため、本リリースでは、--language-model-onlyフラグを用いた回避策により正しく提供（サービング）できることを狙っている。
Marlinを用いた、単一RTX 3090でのvLLMベンチマーク結果として、平均プロンプトスループットは約1,994 tokens/s、平均生成スループットは約222 tokens/sが報告されている。
vLLMのサンプル提供（serve）コマンドが提示されており、著者はHermesエージェント環境での今後の量子化リリースやベンチマーク性能の改善に向けたフィードバックを求めている。

私は、初めてのモデルの量子化をリリースします。kai-os/Carnice-9b の 8-bit 対称 AWQ（W8A16）です。これは、vLLM と Marlin カーネルを使い、単一GPU推論環境で Ampere GPU（RTX 30シリーズ）向けに特に最適化されています。

kai-os/Carnice-9b は、Qwen/Qwen3.5-9B のための特殊なファインチューニングで、視覚コンポーネントを削除し、エージェント（Hermes Agent harness）のための純テキスト用途に Qwen3_5ForCausalLM アーキテクチャを採用しています。このアーキテクチャはまだ vLLM によってネイティブにはサポートされていません（PR #39316 待ちです）。

シームレスな読み込みを可能にするため、量子化済みのチェックポイントは、（元の Qwen/Qwen3.5-9B 設定に合わせて）重みを Qwen3_5ForConditionalGeneration アーキテクチャに再ラップします。これにより、vLLM がテキストのみ推論のための --language-model-only フラグで正しく提供できるようになります。

モデル: https://huggingface.co/TurbulenceDeterministe/Carnice-9b-W8A16-AWQ

ベンチマークのハイライト（ランダムデータセットでの vLLM ベンチ、単一 RTX 3090 + Marlin）:
• 平均プロンプトスループット: 約 1,994 tokens/s
• 平均生成スループット: 約 222 tokens/s

Hermes エージェント環境に特化したいくつかのベンチマークを回します（Terminal Bench Lite と YC ベンチ）。手早い vibecheck ではかなり良さそうに見えています

簡単な vLLM の使用（単一 GPU）:

vllm serve TurbulenceDeterministe/Carnice-9b-W8A16-AWQ \\ --max-model-len auto \\ --reasoning-parser qwen3 \\ --language-model-only \\ --tensor-parallel-size 1

今後の量子化を改善するためのフィードバックをぜひいただけると嬉しいです。ありがとうございます！

提出者: /u/Imakerocketengine
[リンク] [コメント]