WebGPUでGPT-2をフルスクラッチ実装してブラウザで動かしてみた
Zenn / 2026/3/31
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- WebGPUを使ってGPT-2を“フルスクラッチ”で実装し、ブラウザ上で推論(動作)させるまでを試した内容が中心です。
はじめに
WebGPU Compute Shaderを使って、GPT-2の推論パイプラインをブラウザ上でフルスクラッチ実装した。ONNX Runtime WebやTransformers.jsといった既存ライブラリには一切頼らず、行列積(GEMM)からAttention、LayerNorm、Softmaxまで、全てのGPUカーネルをWGSLで手書きしている。
結論から言うと、ブラウザ上でLLMを実用的に動かすのは現時点ではかなり厳しいと感じた。この記事ではプロジェクトの全体像を紹介した上で、WebGPUでの構築とブラウザ上での動作それぞれの制約について述べる。
WebGPUとは
...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



