RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順
Zenn / 2026/3/23
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- RTX 4060 8GBという手頃なGPU環境で、Qwen2.5-32Bをローカル実行するための条件整理と前提を提示している
- M4を超える処理速度(10.8 t/s)を狙うことを目標に、メモリ制約を意識した最適化手順を段階的に紹介している
- 推論時の設定(ロード方法・量子化/メモリ節約・実行パラメータ等)の調整により、限られたVRAMでも速度を引き上げられることを示している
- 同構成での再現性を高めるために「最適化全手順」という形で具体的な実装/設定の流れをまとめている
RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順
手元のラップトップにRTX 4060が載っている。VRAM 8GB。ローカルLLMをやるには「貧乏くじ」と言われるスペックだ。
それでも32Bモデルを動かしたかった。7Bクラスは試した。動く。が、コーディング支援に使うと回答品質に不満が出る。かといってAPIに投げると月のコストが膨らむし、オフラインで使いたい場面もある。
「8GBで32Bは無理」という空気があるのは知っている。全レイヤーGPUに載らないからだ。でもllama.cppのハイブリッド推論(GPU+CPU分割)が...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



