24GB上限の環境で70BのQ4とQ5はどう選ぶ？

Reddit r/LocalLLaMA / 2026/5/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

著者は、GPUが24GBまでという制約のもとで70Bモデルの量子化（Q4かQ5か）を選ぶことに悩んでおり、Q4は余裕を持って収まる一方でQ5は他のGPU使用をほぼすべて切り捨てないと動かない状況です。
著者は、自分の用途（主にプライベートなコードベースでのコード生成）では、オンラインのベンチマークから見て品質差はHumanEvalでおおむね1〜2ポイント程度だと見積もり、その差がシステムを「レッドライン」近くまで詰めて動かす価値に足りるかを判断できないでいます。
この投稿では、同様のハード制約下でQ4とQ5の選択を日常的にどう決めているのかを問いかけており、著者自身も数週間ごとに方針を変えてしまうと述べています。
著者はトレードオフを考えすぎている可能性を感じており、明日は結局コイントスで決めようかとも考えています。

今朝もまた q4 対 q5 の壁にぶつかりました。70b モデル。24gb のカードです。q4 は余裕を持って収まりますが、q5 は GPU 上の他のものを全部殺して（全部切って）祈れば収まる、という感じです。

自分の用途での実際の品質差について計算してみました（主に、プライベートなコードベースでのコード生成です）。オンラインのベンチマークだと humaneval で 1〜2 ポイントの差が出るそうです。それはゼロではないものの、q5 のスクイーズ（圧縮）を選んで、赤いライン（上限）に近づける運用を全部やる価値があるのかどうかまでは、判断材料としては足りません。

こういう構成で、日常的に大きなモデルを動かしている人たちは、q4 と q5 のどちらを選ぶのを実際どう決めているのでしょうか。私は数週間おきに何度も行ったり来たりしてしまっていて、この時点ではただの考えすぎな気がしています。たぶん明日はコインで決めると思います。

投稿者： /u/Practical_Low29
[link] [comments]