4ビットで完全にデバイス上で、256名の専門家とともに。
MoEモデルの専門家のGPUへSSDストリーミングを使用します。
Dan Woods の記事を見て、Metal 推論エンジンを iOS に移植し、いくつかの最適化を加え、基本的なアプリを作ることにしました。
現在、379Bモデルの重みを生成しており、次にそれを動かす予定です。
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/22
4ビットで完全にデバイス上で、256名の専門家とともに。
MoEモデルの専門家のGPUへSSDストリーミングを使用します。
Dan Woods の記事を見て、Metal 推論エンジンを iOS に移植し、いくつかの最適化を加え、基本的なアプリを作ることにしました。
現在、379Bモデルの重みを生成しており、次にそれを動かす予定です。