最近のGoogleのブログ投稿を読んだのですが、精度の損失なしで6倍のKVキャッシュ圧縮、そしてH100で最大8倍のアテンション高速化が可能だと主張しています。ICLR 2026で発表されました。
誰か試した人はいますか?論文のベンチマークの外で、実際のところどんな効果が得られたのでしょうか。
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/26
最近のGoogleのブログ投稿を読んだのですが、精度の損失なしで6倍のKVキャッシュ圧縮、そしてH100で最大8倍のアテンション高速化が可能だと主張しています。ICLR 2026で発表されました。
誰か試した人はいますか?論文のベンチマークの外で、実際のところどんな効果が得られたのでしょうか。