Qwen3.5 27Bの1Mトークンあたりのコストを計算した

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

vLLMを使用し、デュアルGPU環境でプロンプト処理のスループットとテキスト生成のスループットの両方を計測することで、ローカルでQwen 3.5 27Bを稼働させる際の電力コストを著者が見積もっている。

手元のハードウェアで qwen 3.5 27B を動かす際の実際の電気代がどれくらいか気になったので、プロンプト処理と生成それぞれの TPS、そして電力消費を測定しました。

私は vLLM を使って rtx 3090 + rtx pro 4000 で動かしていました。生成では 53.8 tps、プロンプト処理（未キャッシュ）では 1,691 tps を測定しました。これは、実際の API を呼び出す python スクリプト経由で行いました。私の電気代はおよそ 0.30€/kWh です。

Nvidia ツールでは GPU 電力をサンプリングしたところ約 470W でしたが、PC 内の他のコンポーネントも含めて私が計算すると 535W でした。（私のシステムで約 100W のアイドル消費が分かっているため、nvidia ツールが示す GPU のアイドル分を差し引いてこの値になりました。）

というわけで、長い bla bla の後に結果です：

入力（未キャッシュ） 0.026€ / 1M トークン

出力：0.829€ / 1M トークン

多分、gpu1 のみ、そして gpu2 のみで llama.cpp だけを使ってテストをやり直すと思います。rtx pro 4000 は最大 145W なので、より安くなるはずだと思いますが、この構成だと遅くもなります。

submitted by /u/moneyspirit25
[link] [comments]

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

日経XTECH

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Qwen3.5 27Bの1Mトークンあたりのコストを計算した

要点

関連記事

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer