Metaが推論に焦点を当てた4つの新しいMTIAチップを発表

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースIndustry & Market Moves

要点

  • 推論に焦点を当てたMTIA世代チップ(300〜500、約2年間で開発)で、完全なリデザインを行わずに部品を交換できるモジュール式チップレットを採用。
  • MTIA 450および500は推論優先設計で、NVIDIAのトレーニング優先アプローチとは対照的。Metaの規模要件に沿う。
  • メモリ帯域幅は中心的焦点で、MTIA 300の6.1 TB/sからMTIA 500の27.6 TB/sへ拡張(約4.5倍)。MTIA 450は主要な商用製品を帯域幅で既に凌ぐとされる。
  • 低精度計算の重視。MX4は500で約30 PFLOPSを達成。推論向けに設計されたカスタムデータ型は、モデル品質を保持しつつスループットを向上させることを目的。
  • PyTorchネイティブでvLLMサポート(torch.compile、Triton、vLLMプラグイン)。再書き換えなしでGPUとMTIAの両方でモデルを実行可能。MTIA 400は現在データセンターへ出荷済み、450/500は2027年に予定。
推論に焦点を当てた4つの新しいMTIAチップをMetaが発表

MetaはカスタムMTIAチップ(300〜500)の4世代について、約2年の開発で詳細を共有した。

Metaは自前のシリコンを構築し、約6か月ごとに新しいチップを高速に反復している。全体をリデザインすることなく、部品を交換できるモジュール式チップレットを使用。

注目点:

  • 推論優先設計。MTIA 450および500はGenAI推論向けに最適化されており、トレーニングではない。NVIDIAのやり方(トレーニング用に作ってすべてに適用する)は正反対。規模を考えれば筋が通る。
  • HBM帯域幅のスケーリングは難しい。300の6.1 TB/sから500の27.6 TB/sへ拡張(4.5倍)。メモリ帯域幅はLLM推論のボトルネックであり、MTIA 450はすでに主要な商用製品を帯域幅で凌ぐとされる。
  • 低精度計算を重視。MX4は500で約30 PFLOPSを達成。推論向けに設計されたカスタムデータ型は、推論時にモデル品質を維持しつつスループットを向上させることを意図。
  • PyTorchネイティブでvLLMサポート。torch.compile、Triton、vLLMプラグイン。再書き換えなしでGPUとMTIAの両方でモデルを実行可能。
  • 時期: MTIA 400は現在データセンターへ出荷、450/500は2027年を目標。

出典: https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/

submitted by /u/Balance-
[link] [comments]