[リリース] Carnice-9b-W8A16-AWQ – Ampere GPU向け(シングルGPU)のvLLM + Marlinで最適化されたAWQ量子化

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本投稿では、kai-os/Carnice-9bモデルの8ビット対称AWQ量子化版(W8A16)をリリースする。対象はAmpere(RTX 30シリーズ)上で、Marlinカーネルを用いたvLLMによるシングルGPU推論。
  • Carnice-9bは、テキストのみ/エージェント的な用途向けに適応されたQwen/Qwen3.5-9Bのファインチューニングとして説明されており、視覚コンポーネントは削除されている。基盤はQwen3_5ForCausalLMで、vLLMで正しく読み込めるように互換性のためのラッピング(再ラップ)手順を行い、Qwen3_5ForConditionalGenerationとしてロードできるようにしている。
  • 著者は、vLLMが現時点で基盤となるQwen3_5ForCausalLMアーキテクチャをネイティブにサポートしていないと述べている(vLLMの未対応PRへの言及あり)。そのため、本リリースでは、--language-model-onlyフラグを用いた回避策により正しく提供(サービング)できることを狙っている。
  • Marlinを用いた、単一RTX 3090でのvLLMベンチマーク結果として、平均プロンプトスループットは約1,994 tokens/s、平均生成スループットは約222 tokens/sが報告されている。
  • vLLMのサンプル提供(serve)コマンドが提示されており、著者はHermesエージェント環境での今後の量子化リリースやベンチマーク性能の改善に向けたフィードバックを求めている。

こんにちは r/LocalLLaMA,

私は、初めてのモデルの量子化をリリースします。kai-os/Carnice-9b の 8-bit 対称 AWQ(W8A16)です。これは、vLLM と Marlin カーネルを使い、単一GPU推論環境で Ampere GPU(RTX 30シリーズ)向けに特に最適化されています。

kai-os/Carnice-9b は、Qwen/Qwen3.5-9B のための特殊なファインチューニングで、視覚コンポーネントを削除し、エージェント(Hermes Agent harness)のための純テキスト用途に Qwen3_5ForCausalLM アーキテクチャを採用しています。このアーキテクチャはまだ vLLM によってネイティブにはサポートされていません(PR #39316 待ちです)。

シームレスな読み込みを可能にするため、量子化済みのチェックポイントは、(元の Qwen/Qwen3.5-9B 設定に合わせて)重みを Qwen3_5ForConditionalGeneration アーキテクチャに再ラップします。これにより、vLLM がテキストのみ推論のための --language-model-only フラグで正しく提供できるようになります。

モデル: https://huggingface.co/TurbulenceDeterministe/Carnice-9b-W8A16-AWQ

ベンチマークのハイライト(ランダムデータセットでの vLLM ベンチ、単一 RTX 3090 + Marlin):
• 平均プロンプトスループット: 約 1,994 tokens/s
• 平均生成スループット: 約 222 tokens/s

Hermes エージェント環境に特化したいくつかのベンチマークを回します(Terminal Bench Lite と YC ベンチ)。手早い vibecheck ではかなり良さそうに見えています

簡単な vLLM の使用(単一 GPU):

vllm serve TurbulenceDeterministe/Carnice-9b-W8A16-AWQ \\ --max-model-len auto \\ --reasoning-parser qwen3 \\ --language-model-only \\ --tensor-parallel-size 1 

今後の量子化を改善するためのフィードバックをぜひいただけると嬉しいです。ありがとうございます!

提出者: /u/Imakerocketengine
[リンク] [コメント]