Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU

Reddit r/LocalLLaMA / 3/26/2026

📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • Liquid AIのLFM2-24B-A2B(MoEで総24B・アクティブ2B)をWebブラウザ上でWebGPU経由に動かし、M4 Max環境で約50 tokens/秒の推論速度が報告されています。
  • 同じ環境で8B A1Bバリアントは100 tokens/秒超の速度が出たとされ、ローカル推論の体験に関する手応えが示されています。
  • デモとしてHugging Face SpacesのWebGPUデモ(LFM2-MoE-WebGPU)と、ONNX最適化モデル(8B/24B)が公開されています。
  • これにより、ブラウザだけでMoE系LLMの実行を現実的な速度で試せる選択肢が増え、開発者の実装・検証のハードルが下がる可能性があります。
Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU

The model (MoE w/ 24B total & 2B active params) runs at ~50 tokens per second on my M4 Max, and the 8B A1B variant runs at over 100 tokens per second on the same hardware.

Demo (+ source code): https://huggingface.co/spaces/LiquidAI/LFM2-MoE-WebGPU
Optimized ONNX models:
- https://huggingface.co/LiquidAI/LFM2-8B-A1B-ONNX
- https://huggingface.co/LiquidAI/LFM2-24B-A2B-ONNX

submitted by /u/xenovatech
[link] [comments]