| これはマージされたらすぐ消します。抑えきれなかったので。見てください、このベンチを: Qwen3.5-35B-A3B(master)を完全にVRAMに載せた場合:
Qwen3.5-35B-A3B(attn-rot)を完全にVRAMに載せた場合:
Qwen3.5-27B(master)を完全にVRAMに載せた場合:
Qwen3.5-27B(attn-rot)を完全にVRAMに載せた場合:
Qwen3.5-122B-A10B(master)n-cpu-mode=27:
Qwen3.5-122B-A10B(attn-rot)n-cpu-mode=27:
[リンク] [コメント] |
attn-rot(ggerganovの「TurboQuant lite」)がllama.cppへの統合直前
Reddit r/LocalLLaMA / 2026/4/1
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Redditの投稿によると、attn-rot(ggerganovの「TurboQuant lite」)はllama.cppコードベースへの統合が間近で、人気のローカルLLMランタイムでより広く利用できることを示唆している。
- 伝えられているベンチマーク結果では、Qwen3.5-35B-A3Bに対してattn-rotとmasterブランチを比較し、KV量子化レベルごとにKLDやtop-pの挙動が非常に近いことが示されている。
- 表からは、q8_0やq4_0といった異なるKV量子化方式の下でattn-rotを使用しても、品質の低下は小さいことが読み取れる。さらに、出力分布の特徴が近い状態を維持している。
- スループット(t/s)の測定結果が、フル精度(bf16)と量子化KV型の両方について示されており、VRAMに制約のある環境での性能が競争力を保っていることを示している。
- 著者はこの変更を「差し迫っている」と位置づけ、統合後に削除/更新することを示しており、llama.cppの改善を追っている開発者にとって初期の統合シグナルになっている。
関連記事

Black Hat USA
AI Business

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

Google Geminiが邪魔?表示を消して元の操作感を取り戻す完全設定ガイド
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note