| このモデル(MoE:合計24B、アクティブ2Bパラメータ)は、私のM4 Maxで約50トークン/秒で動作し、8BのA1Bバリアントは同じハードウェアで100トークン/秒を超えます。 デモ(+ ソースコード):https://huggingface.co/spaces/LiquidAI/LFM2-MoE-WebGPU [リンク] [コメント] |
Liquid AIのLFM2-24B-A2BがWebGPU経由でWebブラウザ上で動作し、約50トークン/秒で動く
Reddit r/LocalLLaMA / 2026/3/26
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Liquid AIのLFM2-24B-A2B(MoEで総24B・アクティブ2B)をWebブラウザ上でWebGPU経由に動かし、M4 Max環境で約50 tokens/秒の推論速度が報告されています。
- 同じ環境で8B A1Bバリアントは100 tokens/秒超の速度が出たとされ、ローカル推論の体験に関する手応えが示されています。
- デモとしてHugging Face SpacesのWebGPUデモ(LFM2-MoE-WebGPU)と、ONNX最適化モデル(8B/24B)が公開されています。
- これにより、ブラウザだけでMoE系LLMの実行を現実的な速度で試せる選択肢が増え、開発者の実装・検証のハードルが下がる可能性があります。