Skymizer Taiwan Inc.、1枚のカードで超大型LLM推論を可能にする画期的アーキテクチャを発表

Reddit r/LocalLLaMA / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Skymizer Taiwan Inc.は、6つのHTX301チップと384GBのメモリを搭載したシングルPCIeカードの新しいアーキテクチャにより、超大型LLM推論をローカルで実行できると発表しました。
同社は、700Bパラメータの推論を1枚あたり約240Wで行えると主張しており、遅延を左右するトークン生成の低レイテンシーを狙っています。
設計は役割を分担し、GPUは計算負荷の高い「prefill」段階を担当し、HTX301カードがモデル重みと「decode」段階を担う形になっています。
メモリ帯域に重点を置くことで、数十億パラメータ級モデルの実行に高VRAMのGPUへ依存しすぎないことを目的としています。
実運用での性能は、製品の初期発表後にComputexの6月上旬での評価を待つ必要があります。

記事抜粋:

1枚のPCIeカード――6基のHTX301チップと384GBのメモリを搭載――により、企業は現在、1枚あたり約240Wというだけで、700B（7000億）パラメータモデルの推論をローカルで実行できるようになりました。
実運用での推論レイテンシを支配するのは、メモリ帯域を大量に消費するトークン生成です。従来のGPUは計算負荷の高いプリフィルを担当し、HTX301カードがデコードを担当します。各シリコンはそれぞれのフェーズに最適化されています。

これは本当に興味深いアプローチです。

GPUに任せるのはプリフィル段階だけで、モデルの重みやデコードを含むそれ以外はすべて、このカード上で完全に実行されます。こうすることで、大規模な（数十億パラメータの）モデルを、巨大なVRAMを搭載したグラフィックスカードを追いかける必要なしに動かせます。

実際の製品が現実の用途でどのように性能を発揮するかについては、Computexの初旬まで待って確認する必要があります。

投稿者: /u/lurenjia_3x
[リンク] [コメント]