LM StudioのCPUスレッドプールサイズは、CPUにオフロードしたMoE層がある場合のtk/sにどう影響するか

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • この投稿では、Mixture-of-Experts(MoE)の一部の層をCPUにオフロードしたときに、LM StudioのCPUスレッドプールサイズを変えることでトークン毎秒(tk/s)の性能がどう変わるかを扱っています。
  • 画像/グラフ(共有された比較)を通じて、異なるスレッドプールサイズと観測されたスループットの関係を示しています。
  • 結果から、CPU並列化の設定は、部分的にCPUオフロードされたMoEワークロードのレイテンシ/スループットのトレードオフに大きく影響し得ることが示唆されます。
  • 要点は、スレッドプールサイズをモデルやオフロード構成に合わせてベンチマークし、万能な設定に頼らないことです。
  • 投稿はローカルLLM利用の最適化を意識した内容で、自分のハードウェア上で性能を調整したいユーザー向けです。