昨日、TurboquantがLlama.cppで動作していることをTheTomが示すすばらしい作業をしてくれた後、Llama.cppに対して、さらに補完的な高速化をいくつか追加しました。現時点ではCPUとCUDAのビルドがどちらも完璧に使える状態です。私は、Qwen 3.5 4Bを使って16GBの4060tiで、256k+のコンテキストウィンドウまでフルスピードのトークン生成を確認していますが、これはかなり狂ってます。
すべての技術的な詳細についてはDEEPDIVE.mdを、すぐに使い始めるためにはREADME_TURBOQUANT.mdを確認してください。
質問がある場合や提案がある場合は、ぜひ連絡してください、またはGitHubのIssueを投稿してください。
[リンク] [コメント]



