手元のハードウェアで qwen 3.5 27B を動かす際の実際の電気代がどれくらいか気になったので、プロンプト処理と生成それぞれの TPS、そして電力消費を測定しました。
私は vLLM を使って rtx 3090 + rtx pro 4000 で動かしていました。生成では 53.8 tps、プロンプト処理(未キャッシュ)では 1,691 tps を測定しました。これは、実際の API を呼び出す python スクリプト経由で行いました。私の電気代はおよそ 0.30€/kWh です。
Nvidia ツールでは GPU 電力をサンプリングしたところ約 470W でしたが、PC 内の他のコンポーネントも含めて私が計算すると 535W でした。(私のシステムで約 100W のアイドル消費が分かっているため、nvidia ツールが示す GPU のアイドル分を差し引いてこの値になりました。)
というわけで、長い bla bla の後に結果です:
入力(未キャッシュ) 0.026€ / 1M トークン
出力:0.829€ / 1M トークン
多分、gpu1 のみ、そして gpu2 のみで llama.cpp だけを使ってテストをやり直すと思います。rtx pro 4000 は最大 145W なので、より安くなるはずだと思いますが、この構成だと遅くもなります。
[link] [comments]