Tesla P40でローカルLLM(30Bモデル)を使っている人はいますか?

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • この投稿では、Tesla P40 GPU上でローカルLLMをうまく動かせている人がいるかどうかを尋ねており、特にQwen、Mixtral、またはLlama系のような30Bパラメータモデルを対象にしています。
  • 動機はコストで、P40はRTX 3090よりもはるかに安価(およそ$250)だが、RTX 3090は依然として高価だと説明されています。
  • 著者は、トークン毎秒(tokens-per-second)のスループットなど、実際の性能を把握したいと考えており、チャットや軽めのコーディング用途として使えるのかも確認したい意図です。
  • 重要な懸念点は、より長いコンテキスト長に対してどれだけうまく対応できるか、またコンテキストが大きくなるにつれて性能がどの程度低下するかです。

みなさん、こちらでTesla P40を、Qwen / Mixtral / Llamaのような新しめのモデルで使っている方はいらっしゃいますか?

RTX 3090の価格はいまだにかなり高い一方で、P40はだいたい$250なので、予算オプションとして検討しています。

実際の使い勝手について理解したいです:

  • 30Bモデルで、毎秒何トークンくらい出ていますか?
  • チャット+軽めのコーディングに使えますか?
  • より長いコンテキストになると、どれくらい悪化しますか?

ありがとうございます!

submitted by /u/ScarredPinguin
[link] [comments]