私自身の経験の報告です:
VRAMが48GBあります。Qwen3.5-122B-A10B が、Qwen3.5 27B の性能を推論速度を2〜3倍にし、コンテキスト用のメモリ需要を大幅に抑える方法のように見えたことに、私は興奮していました。 122BでのQ4+の経験は素晴らしかった、しかし重いCPUオフロードのため27BのTG速度に勝てることはめったになく、著しくPP速度で遅れをとっていました。
私はCPUオフロードを少し使ったQ3_K_MとUD_Q2_K_XLを用いて、VRAM内を100%にして試しました。総パラメータが100Bを超えるモデルでは、過去このレベルの量子化で成功したことがあるので、試してみる価値があると思いました。
ダメ。
望んでいた速度は出ていました(やった!)が、それは私のコードベースを一貫して破壊します。ツール呼び出しと統語的に正しいコードを書くことは賢くできますが、生死を分ける判断を下すことはできません。Q4に対して性能は著しく崖落ちのように悪化します。
重度に量子化された大規模モデルを探索するたびに、最初に他の人が試しているかどうかを必ず確認するので、共有しておくことにしました。
[リンク] [コメント]




