RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

Zenn / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • RTX 4060 8GBという手頃なGPU環境で、Qwen2.5-32Bをローカル実行するための条件整理と前提を提示している
  • M4を超える処理速度(10.8 t/s)を狙うことを目標に、メモリ制約を意識した最適化手順を段階的に紹介している
  • 推論時の設定(ロード方法・量子化/メモリ節約・実行パラメータ等)の調整により、限られたVRAMでも速度を引き上げられることを示している
  • 同構成での再現性を高めるために「最適化全手順」という形で具体的な実装/設定の流れをまとめている
RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順 手元のラップトップにRTX 4060が載っている。VRAM 8GB。ローカルLLMをやるには「貧乏くじ」と言われるスペックだ。 それでも32Bモデルを動かしたかった。7Bクラスは試した。動く。が、コーディング支援に使うと回答品質に不満が出る。かといってAPIに投げると月のコストが膨らむし、オフラインで使いたい場面もある。 「8GBで32Bは無理」という空気があるのは知っている。全レイヤーGPUに載らないからだ。でもllama.cppのハイブリッド推論(GPU+CPU分割)が...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →