| 投稿者: /u/bonobomaster [リンク] [コメント] |
LM StudioのCPUスレッドプールサイズは、CPUにオフロードしたMoE層がある場合のtk/sにどう影響するか
Reddit r/LocalLLaMA / 2026/4/18
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- この投稿では、Mixture-of-Experts(MoE)の一部の層をCPUにオフロードしたときに、LM StudioのCPUスレッドプールサイズを変えることでトークン毎秒(tk/s)の性能がどう変わるかを扱っています。
- 画像/グラフ(共有された比較)を通じて、異なるスレッドプールサイズと観測されたスループットの関係を示しています。
- 結果から、CPU並列化の設定は、部分的にCPUオフロードされたMoEワークロードのレイテンシ/スループットのトレードオフに大きく影響し得ることが示唆されます。
- 要点は、スレッドプールサイズをモデルやオフロード構成に合わせてベンチマークし、万能な設定に頼らないことです。
- 投稿はローカルLLM利用の最適化を意識した内容で、自分のハードウェア上で性能を調整したいユーザー向けです。




