みなさんこんにちは。私は研究者で、ひとりで立ち上げて活動しています。INT3を+0.14 natsで使ってモデルを圧縮し、長期のタスク向けに2ビットのKVキャッシュを作りました。Mac(Mシリーズ)向けに、カスタムの融合(fused)Metalカーネルで(INT3モデル + INT2 KV)の両方を提供しました。現在、Qwen 7Bがプレビューとして利用可能です。
#install brew install reinforceai/spiral/spiral #chat spiral-chat さらにカーネルの最適化を進めており、GPUサポートのためのTritonカーネルにも取り組んでいます。まだ、より効率的にパッキングできる余地があります。近日中に、さらに多くのモデルを共有します。ぜひフィードバックをいただけると嬉しいです。また、100Bパラメータ以内で私に圧縮してほしいモデルがあれば教えてください。
[link] [comments]
