RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

Zenn / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

RTX 4060 8GBという手頃なGPU環境で、Qwen2.5-32Bをローカル実行するための条件整理と前提を提示している
M4を超える処理速度（10.8 t/s）を狙うことを目標に、メモリ制約を意識した最適化手順を段階的に紹介している
推論時の設定（ロード方法・量子化/メモリ節約・実行パラメータ等）の調整により、限られたVRAMでも速度を引き上げられることを示している
同構成での再現性を高めるために「最適化全手順」という形で具体的な実装/設定の流れをまとめている

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順手元のラップトップにRTX 4060が載っている。VRAM 8GB。ローカルLLMをやるには「貧乏くじ」と言われるスペックだ。それでも32Bモデルを動かしたかった。7Bクラスは試した。動く。が、コーディング支援に使うと回答品質に不満が出る。かといってAPIに投げると月のコストが膨らむし、オフラインで使いたい場面もある。「8GBで32Bは無理」という空気があるのは知っている。全レイヤーGPUに載らないからだ。でもllama.cppのハイブリッド推論（GPU+CPU分割）が...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →