Liquid AIのLFM2-24B-A2BがWebGPU経由でWebブラウザ上で動作し、約50トークン/秒で動く

Reddit r/LocalLLaMA / 2026/3/26

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Liquid AIのLFM2-24B-A2B(MoEで総24B・アクティブ2B)をWebブラウザ上でWebGPU経由に動かし、M4 Max環境で約50 tokens/秒の推論速度が報告されています。
  • 同じ環境で8B A1Bバリアントは100 tokens/秒超の速度が出たとされ、ローカル推論の体験に関する手応えが示されています。
  • デモとしてHugging Face SpacesのWebGPUデモ(LFM2-MoE-WebGPU)と、ONNX最適化モデル(8B/24B)が公開されています。
  • これにより、ブラウザだけでMoE系LLMの実行を現実的な速度で試せる選択肢が増え、開発者の実装・検証のハードルが下がる可能性があります。
Liquid AIのLFM2-24B-A2BがWebGPU上のブラウザで約50トークン/秒で動作

このモデル(MoE:合計24B、アクティブ2Bパラメータ)は、私のM4 Maxで約50トークン/秒で動作し、8BのA1Bバリアントは同じハードウェアで100トークン/秒を超えます。

デモ(+ ソースコード):https://huggingface.co/spaces/LiquidAI/LFM2-MoE-WebGPU
最適化済みONNXモデル:
- https://huggingface.co/LiquidAI/LFM2-8B-A1B-ONNX
- https://huggingface.co/LiquidAI/LFM2-24B-A2B-ONNX

投稿者: /u/xenovatech
[リンク] [コメント]