| 私たちはTom TurneyさんのTurboQuant+に関する取り組みを追ってきましたが、研究自体は画期的だった一方で、実装はまだ少し「もたつく」(ノイズの問題、手動チューニング、メモリリーク)ところがありました。 私たちは過去24時間でNexQuant -を構築してきました。これは、プロダクションレベルで堅牢化された、Rustネイティブのエンジンで、通常なら処理に詰まってしまうようなコンシューマー向けのハードウェア上で、高文脈モデルを動かせるようにします。 中身は何?
ハードウェアサポート: Metal、CUDA、Vulkan向けのネイティブなランタイムディスパッチに対応。古いノートPCやラズベリーパイが手元にあっても、CPU-AVX2/NEONのバックエンドが走り続けます。 謝辞: このプロジェクトはコミュニティの英知の集大成です。3-bit KVキャッシュが数学的に可能であることを示した、オリジナルのPolarQuant/TurboQuant+のブレークスルーに対してTom Turneyさんへの大きな功績としての称賛を。さらに、Claude(Anthropic)さんが高速なペアプログラマーとして振る舞い、Walsh-Hadamard Transformの複雑さやRust GGUFのパースに進むための手助けをしてくれたこともお伝えしたいです。 ミッション: モデルがスケールしていくとしても、それらを動かす能力がローカルで分散されたままでいられるようにすることが目的です。 GitHub: https://github.com/Ainix-dev/NexQuant これを光速に持っていきましょう。特にVulkanのSPIR-Vカーネルに関するフィードバックは大歓迎です。 [リンク] [コメント] |
NexQuant: エッジ向け3ビットKVキャッシュの強靭化。Tom TurneyのTurboQuant+のRustネイティブな後継
Reddit r/LocalLLaMA / 2026/4/1
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- NexQuantは、Tom TurneyのTurboQuant+の後継として、プロダクション向けに強靭化されたRustネイティブなソリューションとして提示されており、コンシューマ向けのハードウェアで高コンテキストのLLMを動かすために、安定した3ビットKVキャッシュ動作を目標としています。
- 同プロジェクトは、強靭化された3ビットKVキャッシュ設計を主因として、メモリ使用量を大幅に削減し、14Bモデルが約4GBのVRAM/ユニファイドメモリに収まると主張しています。
- それまでのノイズの多い量子化/トラジェクトリ成分を置き換え、MSEのみのアプローチを採用し、安定性のためのロジックテスト27/27をパスしたと報告しています。
- NexQuantはリアルタイムのデコードループにsparse-Vを統合し、安全なRustで実装した「ゼロアロケーションのプリフィル(zero-alloc prefill)」を強調することで、C++のプロトタイプに比べて速度を改善し、クラッシュやメモリリークのリスクを低減します。
- Metal、CUDA、Vulkanにまたがるランタイムディスパッチをサポートし、幅広いハードウェア互換性のためにCPUバックエンド(AVX2/NEON)も備えています。さらに、GitHubリポジトリを通じてVulkanのSPIR-Vカーネルへのフィードバックを呼びかけています。




