広告

NexQuant: エッジ向け3ビットKVキャッシュの強靭化。Tom TurneyのTurboQuant+のRustネイティブな後継

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • NexQuantは、Tom TurneyのTurboQuant+の後継として、プロダクション向けに強靭化されたRustネイティブなソリューションとして提示されており、コンシューマ向けのハードウェアで高コンテキストのLLMを動かすために、安定した3ビットKVキャッシュ動作を目標としています。
  • 同プロジェクトは、強靭化された3ビットKVキャッシュ設計を主因として、メモリ使用量を大幅に削減し、14Bモデルが約4GBのVRAM/ユニファイドメモリに収まると主張しています。
  • それまでのノイズの多い量子化/トラジェクトリ成分を置き換え、MSEのみのアプローチを採用し、安定性のためのロジックテスト27/27をパスしたと報告しています。
  • NexQuantはリアルタイムのデコードループにsparse-Vを統合し、安全なRustで実装した「ゼロアロケーションのプリフィル(zero-alloc prefill)」を強調することで、C++のプロトタイプに比べて速度を改善し、クラッシュやメモリリークのリスクを低減します。
  • Metal、CUDA、Vulkanにまたがるランタイムディスパッチをサポートし、幅広いハードウェア互換性のためにCPUバックエンド(AVX2/NEON)も備えています。さらに、GitHubリポジトリを通じてVulkanのSPIR-Vカーネルへのフィードバックを呼びかけています。
NexQuant: Hardening 3-bit KV-Cache for the Edge. A Rust-native successor to Tom Turney’s TurboQuant+

私たちはTom TurneyさんのTurboQuant+に関する取り組みを追ってきましたが、研究自体は画期的だった一方で、実装はまだ少し「もたつく」(ノイズの問題、手動チューニング、メモリリーク)ところがありました。

私たちは過去24時間でNexQuant -を構築してきました。これは、プロダクションレベルで堅牢化された、Rustネイティブのエンジンで、通常なら処理に詰まってしまうようなコンシューマー向けのハードウェア上で、高文脈モデルを動かせるようにします。

中身は何?

  • 3〜5倍のメモリ削減: 14Bモデルが、4GBのVRAM/ユニファイドメモリに無理なく収まるようになりました。
  • MSEのみの安定性: ノイズの多かったQJLパスを、安定したMSEのみの軌道に置き換えました。27/27のロジックテストを通過。
  • 統合されたSparse-V: スパース性はもはやベンチマークのためだけではありません。リアルタイムのデコードループに統合されています。
  • ゼロアロケーションのプリフィル: 最大限の速度を目指して、100%セーフなRustで書かれています。C++プロトタイプの「セグフォルト」的な摩擦を回避します。

ハードウェアサポート: MetalCUDAVulkan向けのネイティブなランタイムディスパッチに対応。古いノートPCやラズベリーパイが手元にあっても、CPU-AVX2/NEONのバックエンドが走り続けます。

謝辞: このプロジェクトはコミュニティの英知の集大成です。3-bit KVキャッシュが数学的に可能であることを示した、オリジナルのPolarQuant/TurboQuant+のブレークスルーに対してTom Turneyさんへの大きな功績としての称賛を。さらに、Claude(Anthropic)さんが高速なペアプログラマーとして振る舞い、Walsh-Hadamard Transformの複雑さやRust GGUFのパースに進むための手助けをしてくれたこともお伝えしたいです。

ミッション: モデルがスケールしていくとしても、それらを動かす能力がローカルで分散されたままでいられるようにすることが目的です。

GitHub: https://github.com/Ainix-dev/NexQuant

これを光速に持っていきましょう。特にVulkanのSPIR-Vカーネルに関するフィードバックは大歓迎です。

submitted by /u/SpiritOk6612
[リンク] [コメント]

広告