ええと、ちょっと聞いてください。ここにはかなりユニークな状況があり、良いおすすめをお願いします。
現在、8枚のH100をホストするように設計されたサーバー(ESC8000A-E12)を所有しており、すでに22GBのVRAMを搭載した2枚の2080TIで動作しています。これはStable Diffusionが流行っていた時代のずいぶん前に手に入れたもので、これ上でLLMsを動かすというアイデア(ChatGPTは当時ただの話題に過ぎませんでした)が頭に浮かんだことはありませんでした。
現在では、みんながローカルのハードウェアでLLMをデプロイしており、私は現在、残りの6つのGPUスロットを埋めて機械を“完成”させることを考えています。1枚あたり約290ドルで信頼できる2080TI 22GBを入手可能です。これにより、約2,000ドル未満で176GBのVRAMを手に入れることができます。
しかし、Turingは非常に古いアーキテクチャで、BF16(FP16のみ)やFA2すらサポートしていません。代替案を比較する目的でこのRedditをしばらく見てきました。私が持っている中で最良なのは5060ti 16GBで、FP4のサポートとより良いアーキテクチャのおかげで、1 GPUあたりの性能を上回る可能性があります。ただし5060ti 16GBは2080TI 22GBの2倍の価格で、現在ある2枚を廃棄して置き換える必要があります。とはいえ、Turingのサポートが今後低下し続ける場合の長寿命にも懸念があります。
48GBを搭載する4090は魅力的に聞こえますが、1枚だけで2080TI 22GBを8枚分以上の費用がかかってしまう。
いかなる提案も歓迎します。よろしくお願いします!
[リンク] [コメント]




