Turboquant、Heavy-Hitter Oracle（H2O）、およびStreamingLLMを組み合わせたllama.cpp。さらに性能向上！

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

新しいLlama.cppの統合により、TurboquantとH2O Heavy-Hitter Oracle（Heavy-Hitter Oracle/H2O）およびStreamingLLMを組み合わせて、さらなる相補的な性能向上（速度のブースト）を実現します。
著者によれば、CPUビルドとCUDAビルドの両方が機能しており、16GBのRTX 4060 Ti上で、Qwen 3.5 4Bを非常に大きなコンテキストウィンドウ（256k+）で実行しながら、フルスピードのトークン生成が可能です。
このプロジェクトでは、DEEPDIVE.mdとREADME_TURBOQUANT.mdを通じてセットアップガイダンスが提供されており、インストール／実行の詳細はリポジトリ内のドキュメントに分散して記載されています。
ユーザーには、技術的な詳細についてはリンクされたGitHubリポジトリを参照し、さらなる改善のために質問や課題（issues）を提出することが推奨されています。
本投稿では、このアプローチを、Llama.cppスタイルのデプロイでより高いスループットと長いコンテキストを実現するための実用的な道筋として位置づけています。

昨日、TurboquantがLlama.cppで動作していることをTheTomが示すすばらしい作業をしてくれた後、Llama.cppに対して、さらに補完的な高速化をいくつか追加しました。現時点ではCPUとCUDAのビルドがどちらも完璧に使える状態です。私は、Qwen 3.5 4Bを使って16GBの4060tiで、256k+のコンテキストウィンドウまでフルスピードのトークン生成を確認していますが、これはかなり狂ってます。

すべての技術的な詳細についてはDEEPDIVE.mdを、すぐに使い始めるためにはREADME_TURBOQUANT.mdを確認してください。

質問がある場合や提案がある場合は、ぜひ連絡してください、またはGitHubのIssueを投稿してください。

https://github.com/peva3/turboquant-h2o-streamingllm

によって提出 /u/peva3
[リンク] [コメント]