電力価格の高い国から来ました。私は 6枚の RTX 3080 20GB GPU サーバーを本当に気に入っていますが、電力消費は特に 24x7 または 14x7 時間の稼働時にはかなり激しいです。
Strix-Halo の購入を長い間検討しており(ええ、価格は上がっています)、DGX Spark やその安価なクローンのいずれかを検討しています。
帯域幅が実際に小さいため、計算能力を失っていることは私には明らかです。
私はますます多くのエージェントを使用しており、24時間稼働させることが増えています。そのため、非常に高速なトークン生成を持つことは私にとってそれほど重要ではありませんが、文脈がエージェント主導の利用ケースの拡大とともに増大するにつれて、プロンプト処理の重要性はますます高まっています。
私の考え:
GB10(Nvidia DGX Spark またはクローン)
- FP4 を使用する際に良好な性能を発揮しつつ、品質は適度である可能性
- CUDA 環境を維持
- 拡張は単一で短い M.2 SSD によって制限されるため難しく、容量を増やすには 2 台目の GB10 を購入する必要がある
Strix-Halo / Ryzen AI 395 Max
- GB10 クローンよりほぼ 50% 安い
- 多くのモデルが PCIe スロットを備えており、第二の GPU を追加するハック的な解決策になる可能性がある(Minisforum、Framework など)または分割モードを調整する際に容量と速度を増やすための第二の x4 M.2 スロットを搭載した Bosgame M5 など。
- Vulkan/ROCM エコシステムと、必要に応じた複数 GPU の複雑さを恐れています。
補足的な考え: 夏に Apple から何が発売されるのか?MacBook Pro の M5 Max は(Alex Ziskind の動画によれば)ノン Ultra の Mac でも Strix-Halo および GB10 と比較して非常に良い電力対性能(PP)値を示していることがわかりました。
この点について皆さんのご意見はどうでしょうか、また経験やヒントを共有していただけますか?
[リンク] [コメント]
