広告

Bonsai-8bによるLlamaベンチマーク

Reddit r/LocalLLaMA / 2026/4/2

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本記事は、ggml経由でCUDAバックエンド上でNVIDIA H100 80GB GPU(計算能力9.0)を用いて、Q1_0として量子化したQwen3 8Bモデルを実行した際のベンチマーク結果を報告している。
ggml_cuda_init: 1 つの CUDA デバイスを検出: デバイス 0: NVIDIA H100 80GB HBM3、compute capability 9.0、VMM: yes | モデル | サイズ | パラメータ | バックエンド | ngl | fa | テスト | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | pp512 | 9061.72 ± 652.18 | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | tg128 | 253.57 ± 0.35 | build: 1179bfc82 (8194) ggml_cuda_init: 1 つの CUDA デバイスを検出: デバイス 0: NVIDIA H100 80GB HBM3、compute capability 9.0、VMM: yes | モデル | サイズ | パラメータ | バックエンド | ngl | fa | テスト | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | pp512 | 9061.72 ± 652.18 | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | tg128 | 253.57 ± 0.35 | build: 1179bfc82 (8194) 
によって投稿 /u/ipechman
[リンク] [コメント]

広告