24GB上限の環境で70BのQ4とQ5はどう選ぶ?

Reddit r/LocalLLaMA / 2026/5/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、GPUが24GBまでという制約のもとで70Bモデルの量子化(Q4かQ5か)を選ぶことに悩んでおり、Q4は余裕を持って収まる一方でQ5は他のGPU使用をほぼすべて切り捨てないと動かない状況です。
  • 著者は、自分の用途(主にプライベートなコードベースでのコード生成)では、オンラインのベンチマークから見て品質差はHumanEvalでおおむね1〜2ポイント程度だと見積もり、その差がシステムを「レッドライン」近くまで詰めて動かす価値に足りるかを判断できないでいます。
  • この投稿では、同様のハード制約下でQ4とQ5の選択を日常的にどう決めているのかを問いかけており、著者自身も数週間ごとに方針を変えてしまうと述べています。
  • 著者はトレードオフを考えすぎている可能性を感じており、明日は結局コイントスで決めようかとも考えています。

今朝もまた q4 対 q5 の壁にぶつかりました。70b モデル。24gb のカードです。q4 は余裕を持って収まりますが、q5 は GPU 上の他のものを全部殺して(全部切って)祈れば収まる、という感じです。

自分の用途での実際の品質差について計算してみました(主に、プライベートなコードベースでのコード生成です)。オンラインのベンチマークだと humaneval で 1〜2 ポイントの差が出るそうです。それはゼロではないものの、q5 のスクイーズ(圧縮)を選んで、赤いライン(上限)に近づける運用を全部やる価値があるのかどうかまでは、判断材料としては足りません。

こういう構成で、日常的に大きなモデルを動かしている人たちは、q4 と q5 のどちらを選ぶのを実際どう決めているのでしょうか。私は数週間おきに何度も行ったり来たりしてしまっていて、この時点ではただの考えすぎな気がしています。たぶん明日はコインで決めると思います。

投稿者: /u/Practical_Low29
[link] [comments]