具体的な性能数値を見つけるのは難しいので、私のものを投稿します:
- OpenClaw 2026.3.8
- LM Studio 0.4.6+1
- Unsloth gpt-oss-20b-Q4_K_S.gguf
- コンテキストサイズ 26035
- その他のモデル設定はデフォルトのままです(GPUオフロード = 18、CPUスレッドプールサイズ = 7、最大同時実行数 = 4、専門家の数 = 4、フラッシュアテンション = オン)
これを使うと、最初のプロンプトの後、34 トークン/秒、最初のトークンまでの時間は0.7秒になります
[リンク] [コメント]




