今朝もまた q4 対 q5 の壁にぶつかりました。70b モデル。24gb のカードです。q4 は余裕を持って収まりますが、q5 は GPU 上の他のものを全部殺して(全部切って)祈れば収まる、という感じです。
自分の用途での実際の品質差について計算してみました(主に、プライベートなコードベースでのコード生成です)。オンラインのベンチマークだと humaneval で 1〜2 ポイントの差が出るそうです。それはゼロではないものの、q5 のスクイーズ(圧縮)を選んで、赤いライン(上限)に近づける運用を全部やる価値があるのかどうかまでは、判断材料としては足りません。
こういう構成で、日常的に大きなモデルを動かしている人たちは、q4 と q5 のどちらを選ぶのを実際どう決めているのでしょうか。私は数週間おきに何度も行ったり来たりしてしまっていて、この時点ではただの考えすぎな気がしています。たぶん明日はコインで決めると思います。
[link] [comments]




