（経験談）Qwen3.5-122B-A10B は Q4 の後に量子化がうまくいかない

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

著者は 48GB の VRAM 上で Qwen3.5-122B-A10B を試し、Qwen3.5-27B の性能を再現して、推論を2〜3倍高速化し、コンテキストメモリの使用量を低減させることを期待した。
122B での Q4+ は性能が良好だったと報告されているが、重い CPU オフロードのため 27B の TG 速度を上回ることを妨げ、PP 速度では大幅に遅れていた。
CPUオフロードを一定程度取り入れ、VRAMを100%使用する UD_Q2_K_XL を用いて Q3_K_M を試し、過去には >100B のモデルで量子化が機能していたことから、大型モデルにも適用できることを期待した。
実際には量子化は速度を向上させたものの、全体的な性能を低下させ、コードベースには適さず、Q4 と比べて大幅な性能低下を示した。
著者はこの経験を共有し、他の人が時間と労力を投資する前に、重い量子化を試す価値があるかどうかを判断する助けとする。

私自身の経験の報告です:

VRAMが48GBあります。Qwen3.5-122B-A10B が、Qwen3.5 27B の性能を推論速度を2〜3倍にし、コンテキスト用のメモリ需要を大幅に抑える方法のように見えたことに、私は興奮していました。 122BでのQ4+の経験は素晴らしかった、しかし重いCPUオフロードのため27BのTG速度に勝てることはめったになく、著しくPP速度で遅れをとっていました。

私はCPUオフロードを少し使ったQ3_K_MとUD_Q2_K_XLを用いて、VRAM内を100%にして試しました。総パラメータが100Bを超えるモデルでは、過去このレベルの量子化で成功したことがあるので、試してみる価値があると思いました。