Bonsai-8bによるLlamaベンチマーク

要点

本記事は、ggml経由でCUDAバックエンド上でNVIDIA H100 80GB GPU（計算能力9.0）を用いて、Q1_0として量子化したQwen3 8Bモデルを実行した際のベンチマーク結果を報告している。

ggml_cuda_init: 1 つの CUDA デバイスを検出: デバイス 0: NVIDIA H100 80GB HBM3、compute capability 9.0、VMM: yes | モデル | サイズ | パラメータ | バックエンド | ngl | fa | テスト | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | pp512 | 9061.72 ± 652.18 | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | tg128 | 253.57 ± 0.35 | build: 1179bfc82 (8194) ggml_cuda_init: 1 つの CUDA デバイスを検出: デバイス 0: NVIDIA H100 80GB HBM3、compute capability 9.0、VMM: yes | モデル | サイズ | パラメータ | バックエンド | ngl | fa | テスト | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | -: | --------------: | -------------------: | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | pp512 | 9061.72 ± 652.18 | | qwen3 8B Q1_0_g128 | 1.07 GiB | 8.19 B | CUDA | 999 | 1 | tg128 | 253.57 ± 0.35 | build: 1179bfc82 (8194)

によって投稿 /u/ipechman
[リンク] [コメント]