みなさん、こちらでTesla P40を、Qwen / Mixtral / Llamaのような新しめのモデルで使っている方はいらっしゃいますか?
RTX 3090の価格はいまだにかなり高い一方で、P40はだいたい$250なので、予算オプションとして検討しています。
実際の使い勝手について理解したいです:
- 30Bモデルで、毎秒何トークンくらい出ていますか?
- チャット+軽めのコーディングに使えますか?
- より長いコンテキストになると、どれくらい悪化しますか?
ありがとうございます!
[link] [comments]