記事抜粋:
1枚のPCIeカード――6基のHTX301チップと384GBのメモリを搭載――により、企業は現在、1枚あたり約240Wというだけで、700B(7000億)パラメータモデルの推論をローカルで実行できるようになりました。
実運用での推論レイテンシを支配するのは、メモリ帯域を大量に消費するトークン生成です。従来のGPUは計算負荷の高いプリフィルを担当し、HTX301カードがデコードを担当します。各シリコンはそれぞれのフェーズに最適化されています。
これは本当に興味深いアプローチです。
GPUに任せるのはプリフィル段階だけで、モデルの重みやデコードを含むそれ以外はすべて、このカード上で完全に実行されます。こうすることで、大規模な(数十億パラメータの)モデルを、巨大なVRAMを搭載したグラフィックスカードを追いかける必要なしに動かせます。
実際の製品が現実の用途でどのように性能を発揮するかについては、Computexの初旬まで待って確認する必要があります。
[リンク] [コメント]




