AI Navigate

インサイト最新記事一覧 AI大全

広告

MLX上のTurboQuant：カスタムMetalカーネルによるKVキャッシュ圧縮で4.6倍（Qwen 32BがFP16速度の98%）

Reddit r/LocalLLaMA / 2026/3/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事では、コードリポジトリ（turboquant-mlx）と、mlx-lmへのPRの両方が共有されており、この取り組みがMLXエコシステムに積極的に統合されていることが示唆される。

統合されたMetalカーネルを使って、MLX向けにTurboQuant（Googleの新しいKVキャッシュ圧縮に関する論文）を実装しました。

Qwen2.5-32Bでの結果、M4 Pro 48GB:

- 4.6x圧縮、0.98x FP16速度、品質は同一

- 16Kコンテキスト: 4.2GBキャッシュ → 897MB

主な課題は速度でした。統合されたMetalの量子化/復号化カーネルと、増分デコードバッファによって、0.28xから0.98x FP16へ改善しました。

最適化の全行程のまとめ: https://medium.com/@antonrozanov/turboquant-on-mlx-4-6x-kv-cache-compression-with-custom-metal-kernels-9cdee3f7d2a2

コード: https://github.com/arozanov/turboquant-mlx

mlx-lmへのPR: https://github.com/ml-explore/mlx-lm/pull/1067

/u/dirtyhand3 によって投稿
[link] [comments]

関連記事

Black Hat Asia

Black Hat Asia

AI Business

TensorFlowのインストールエラーを解決するための完全ガイド

TensorFlowのインストールエラーを解決するための完全ガイド

Qiita

本番運用で最終精度100%を達成した住宅ローンOCRシステムを構築（米国/英国のアンダーライティング）

Reddit r/LocalLLaMA

# 私はページネーションの課題を作った…そしてAIは本当の問題を見逃した

# 私はページネーションの課題を作った…そしてAIは本当の問題を見逃した

Dev.to

Xataは無料のサーバレスデータベースを提供——組み込み検索、分析、AI付きのPostgreSQL

Xataは無料のサーバレスデータベースを提供——組み込み検索、分析、AI付きのPostgreSQL

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告