Qwen3.5 27Bの1Mトークンあたりのコストを計算した

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • vLLMを使用し、デュアルGPU環境でプロンプト処理のスループットとテキスト生成のスループットの両方を計測することで、ローカルでQwen 3.5 27Bを稼働させる際の電力コストを著者が見積もっている。

手元のハードウェアで qwen 3.5 27B を動かす際の実際の電気代がどれくらいか気になったので、プロンプト処理と生成それぞれの TPS、そして電力消費を測定しました。

私は vLLM を使って rtx 3090 + rtx pro 4000 で動かしていました。生成では 53.8 tps、プロンプト処理(未キャッシュ)では 1,691 tps を測定しました。これは、実際の API を呼び出す python スクリプト経由で行いました。私の電気代はおよそ 0.30€/kWh です。

Nvidia ツールでは GPU 電力をサンプリングしたところ約 470W でしたが、PC 内の他のコンポーネントも含めて私が計算すると 535W でした。(私のシステムで約 100W のアイドル消費が分かっているため、nvidia ツールが示す GPU のアイドル分を差し引いてこの値になりました。)

というわけで、長い bla bla の後に結果です:

入力(未キャッシュ) 0.026€ / 1M トークン

出力:0.829€ / 1M トークン

多分、gpu1 のみ、そして gpu2 のみで llama.cpp だけを使ってテストをやり直すと思います。rtx pro 4000 は最大 145W なので、より安くなるはずだと思いますが、この構成だと遅くもなります。

submitted by /u/moneyspirit25
[link] [comments]