LM StudioのCPUスレッドプールサイズは、CPUにオフロードしたMoE層がある場合のtk/sにどう影響するか

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、Mixture-of-Experts（MoE）の一部の層をCPUにオフロードしたときに、LM StudioのCPUスレッドプールサイズを変えることでトークン毎秒（tk/s）の性能がどう変わるかを扱っています。
画像/グラフ（共有された比較）を通じて、異なるスレッドプールサイズと観測されたスループットの関係を示しています。
結果から、CPU並列化の設定は、部分的にCPUオフロードされたMoEワークロードのレイテンシ/スループットのトレードオフに大きく影響し得ることが示唆されます。
要点は、スレッドプールサイズをモデルやオフロード構成に合わせてベンチマークし、万能な設定に頼らないことです。
投稿はローカルLLM利用の最適化を意識した内容で、自分のハードウェア上で性能を調整したいユーザー向けです。