INT3圧縮＋fusedメタル・カーネル（R）

Reddit r/MachineLearning / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

研究者はINT3量子化でモデルを圧縮し（+0.14 natsを報告）、さらに長期タスク向けに2-bitのKVキャッシュを構築して組み合わせています。
INT3圧縮モデルとINT2 KVキャッシュを、Apple Silicon（Mシリーズ）Mac向けに最適化したカスタムのfused Metalカーネルとして提供しています。
この手法を用いたQwen 7Bモデルが現在プレビューとして利用可能です。
カーネルのさらなる最適化を進めつつ、より幅広い対応のためTritonベースのGPUカーネルにも取り組んでいます。
著者はフィードバックを歓迎し、次に（約100Bパラメータまでの）どのモデルを圧縮してほしいかをコミュニティに呼びかけつつ、Spiralのリポジトリを案内しています。

みなさんこんにちは。私は研究者で、ひとりで立ち上げて活動しています。INT3を+0.14 natsで使ってモデルを圧縮し、長期のタスク向けに2ビットのKVキャッシュを作りました。Mac（Mシリーズ）向けに、カスタムの融合（fused）Metalカーネルで(INT3モデル + INT2 KV)の両方を提供しました。現在、Qwen 7Bがプレビューとして利用可能です。

#install brew install reinforceai/spiral/spiral #chat spiral-chat

さらにカーネルの最適化を進めており、GPUサポートのためのTritonカーネルにも取り組んでいます。まだ、より効率的にパッキングできる余地があります。近日中に、さらに多くのモデルを共有します。ぜひフィードバックをいただけると嬉しいです。また、100Bパラメータ以内で私に圧縮してほしいモデルがあれば教えてください。

github.com/ReinforceAI/spiral

投稿者 /u/Financial_Buy_2287
[link] [comments]

Black Hat USA

AI Business

視覚におけるオートエンコーダと表現学習

Dev.to

あらゆるAI投資アプリはあなたのデータを欲しがる――信用できなかったので、オフラインで自分のものを作った

Dev.to

URLひとつでClaudeを操作可能に—Chrome拡張「Send to Claude」が非常に便利

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

INT3圧縮＋fusedメタル・カーネル（R）

要点

関連記事

Black Hat USA

視覚におけるオートエンコーダと表現学習

あらゆるAI投資アプリはあなたのデータを欲しがる――信用できなかったので、オフラインで自分のものを作った

URLひとつでClaudeを操作可能に—Chrome拡張「Send to Claude」が非常に便利

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer