素晴らしい論文ですが、私の見た限りでは、せいぜいもう少し多くの文脈に適合できるようになる程度です。最近のハイブリッドモデルはキャッシュ効率がとても高いので、これは単なるわずかな改善に感じます。他の量子化関連の改善で、これほどの熱狂を見たことがありません。一方で、「TurboQuantはいつ落ちるのか(いつリリースされるのか)」「llama.cppにいつ来るのか」「みんなの自作実装はどうなのか」など、そういった投稿がとても多いように思います。私は何か完全に見落としているのでしょうか?
[リンク] [コメント]




