Tenstorrentの「Galaxy Blackhole」AIサーバーが事象の地平線を抜け出す
RISC-Vベースのシステムに、6U筐体で32基のBlackholeアクセラレータを搭載(価格11万ドル)
Tenstorrentは火曜日、AI計算プラットフォーム「Galaxy Blackhole」の一般提供を発表しました。
スタートアップの6Uシステム各台には、私たちが昨年の秋に見たBlackholeアクセラレータ32基が詰め込まれています。チップ同士は、合計100Tbpsの帯域幅によって、高密度のイーサネットメッシュで相互接続されています。
Tenstorrentによれば、各Galaxyシステムは合計でGDDR6を1TB、メモリ帯域16TB/s、密なFP8性能23ペタFLOPSを備えており、そのすべてが価格はたった11万ドルです。
これを別の言い方で見れば、Nvidiaの8ウェイDGXボックスはより高速でより大容量ですが、それでも3倍から5倍程度の費用がかかることになります。
とはいえ、Tenstorrentのメッシュネットワークは単一ノードに限定されません。GoogleのTPUやAmazonのTrainium2のクラスタのように、より多くのシステムを追加し、テンソル並列とパイプライン並列の比率を調整することで、大規模モデルの対応、スループットの向上、よりインタラクティブなユーザー体験の実現に拡張できます。
Tenstorrentのベース「Galaxy Supercluster」は44万ドルで、Blackholeシステムを4基備えていますが、アーキテクチャは1000基超のチップを搭載した最大32ノードまで対応可能です。
TenstorrentのシニアフェローであるJasmina Vasiljevic氏は、当初私たちがハードウェアに初めて手を触れた時点から、ソフトウェアスタックはかなり改善されたと語ります。当時はモデル対応が非常に限られており、実際に動いていたものもまだハードウェア向けに最適化されていませんでした。この不一致が、私たちのテストでは概して性能スケーリングの低さにつながりました。
返却形式: {"translated": "翻訳されたHTML"}もはやそのような状況ではないと聞かされており、実際にチップの性能を数か月前に「ダウングレード」していたにもかかわらず、新しいモデルをハードウェアへ移植するだけでなく、性能の改善にもかなりの努力が払われたというのです。
少なくともDeepSeek V3については、Tenstorrentは自社の4ノードBlackhole Galaxy Superclustersが、10万トークンのプロンプト(文章166ページ分に相当)を4秒未満で処理できると主張しています。
一方で、システムはユーザー1人あたり最大毎秒300トークンを出力でき、近い将来にはソフトウェアの改良によってそれを毎秒350へ引き上げることを見込んでいるとも聞かされます。
ただし、Tenstorrentはこれらのテストで使われたバッチサイズを明記していないことに注目しておきます。バッチサイズは、AIシステムが本番環境でどのようにスケールするかを評価するうえで重要な指標です。1人のユーザーに対して毎秒350トークンを達成するのは、それを32人または64人へとスケールさせた場合ほど、見栄えのする成果ではありません。
Tenstorrentは、プラットフォーム上でスループットと対話性の要求に応じて、バッチ8から最大64まで効果的にスケールできるとしているのは事実です。
- 1つのチップで万を制す? TPU 8でGoogleはAIの“腕比べ”を繰り広げて勝ちに行く
- ノン・Nvidiaのインターコネクト陣営が、v1.0シリコン出荷前に2.0仕様を提示
- AlibabaはAIチップを470,000個作ったと明かし、それらが劣っており、今後もそうかもしれないと認める
- NvidiaのGroq搭載LPXと、そのほかの新しいラックシステムを読み解く
大規模言語モデルに加えて、TenstorrentはGalaxy Blackholeを動画生成の理想的なプラットフォームとして位置づけています。4ノードのスーパー クラスターでは、同社はリアルタイムよりも速く720p動画を生成できると述べています。
Vasiljevic氏は、Moonshot AIのKimi K2のような追加のフロンティアモデルも準備中であり、同社のチームは、最適化されたカーネルを書いていくためのPythonベースのプログラミング・インターフェースを開発したと話しています。これにより、今後も新しいモデルをプラットフォームへ持ち込めるようにする狙いです。
「Hugging Faceのモデルの90%はTenstorrentでそのまま動きます」と、同社はリリースで書いています。これは大きな主張であり、私たちはそれを検証してみるのを楽しみにしています。
購入する前に試してみたいということであれば、Tenstorrentのハードウェアは、Cirrascale、Equinix、日本のai&を含む複数の大手データセンター、コロケーション、ネオクラウド・プロバイダーによる採用が進んでいます。チップのスタートアップは5月1日のTT-Deployイベントで、さらに多くの情報を共有してくれると期待しています。®




