INT3圧縮+fusedメタル・カーネル(R)

Reddit r/MachineLearning / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 研究者はINT3量子化でモデルを圧縮し(+0.14 natsを報告)、さらに長期タスク向けに2-bitのKVキャッシュを構築して組み合わせています。
  • INT3圧縮モデルとINT2 KVキャッシュを、Apple Silicon(Mシリーズ)Mac向けに最適化したカスタムのfused Metalカーネルとして提供しています。
  • この手法を用いたQwen 7Bモデルが現在プレビューとして利用可能です。
  • カーネルのさらなる最適化を進めつつ、より幅広い対応のためTritonベースのGPUカーネルにも取り組んでいます。
  • 著者はフィードバックを歓迎し、次に(約100Bパラメータまでの)どのモデルを圧縮してほしいかをコミュニティに呼びかけつつ、Spiralのリポジトリを案内しています。

みなさんこんにちは。私は研究者で、ひとりで立ち上げて活動しています。INT3を+0.14 natsで使ってモデルを圧縮し、長期のタスク向けに2ビットのKVキャッシュを作りました。Mac(Mシリーズ)向けに、カスタムの融合(fused)Metalカーネルで(INT3モデル + INT2 KV)の両方を提供しました。現在、Qwen 7Bがプレビューとして利用可能です。

#install brew install reinforceai/spiral/spiral #chat spiral-chat 

さらにカーネルの最適化を進めており、GPUサポートのためのTritonカーネルにも取り組んでいます。まだ、より効率的にパッキングできる余地があります。近日中に、さらに多くのモデルを共有します。ぜひフィードバックをいただけると嬉しいです。また、100Bパラメータ以内で私に圧縮してほしいモデルがあれば教えてください。

github.com/ReinforceAI/spiral

投稿者 /u/Financial_Buy_2287
[link] [comments]