KarpathyのMicroGPTがFPGA上で5万TPSを達成

Reddit r/LocalLLaMA / 2026/5/3

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • KarpathyのMicroGPTが、パラメータ数4,192の小型モデルを使うことで、FPGA上で約5万トークン/秒の速度で動いていると報告されています。
  • 記事では、主な高速化要因として、モデルの重みを外部メモリから読み出すのではなく、チップ内蔵のROM(オンボードROM)に保持している点を強調しています。
  • さらに、現行のFPGAと16ビット重みの前提では、オンボードROMによってモデル規模が概ね2,000万〜3,000万パラメータ程度に制限されると述べています。
  • その上で、オンボードROMの大容量化や、SLM(小型言語モデル)向けに特化したFPGAの登場によって、同様の高い推論速度がより大きなモデルでも実現できる可能性を示唆しています。
  • 読者が手法を確認・再現できるよう、プロジェクトの詳細や関連リポジトリへのリンクが提供されています。

もちろん、パラメータ数は4,192だけですが、まずは第一歩です。プロジェクトの書き込みはこちら: https://v2.talos.wtf/ そしてgithubリポジトリはこちら: https://github.com/Luthiraa/TALOS-V2

速度の一部は、外部メモリではなくオンボードに重みを搭載していることによります。オンボードROMなら、16ビットの重みを使う現在のFPGAでは最大で2,000万〜3,000万パラメータまで到達しますが、これやTaalas(https://taalas.com/ - 似た名前であることは偶然ではないかもしれません)によって、FPGA内に、あるいはSLM向けに特化したFPGAに、より多くのオンボードROMが登場することにつながるかもしれません。

投稿者: /u/jawondo
[リンク] [コメント]