https://www.reddit.com/r/LocalLLaMA/comments/1eb6to7/llama_405b_q4_k_m_quantization_running_locally/
https://www.reddit.com/r/LocalLLaMA/comments/1ebbgkr/llama_31_405b_q5_k_m_running_on_amd_epyc_9374f/
2年前、1.2tk/秒で動くLlama405bのq4は、期待に胸が躍るようなものでした。
その同じハードウェアが今では、巨大な最先端モデル(kimik2.6、deepseekv4flash、minimax2.7、step3.5flash、qwen3.5-397b)を30tk-100tk/秒で動かしながら、Llama405bを粉砕しています。:-/
私は、なぜ誰かがLlama405bを1.2/tkなどで動かしたいのかを尋ねる人がいるのを覚えています。そう聞かれたとき、私の答えは、AGIが到来したときに備えておきたかったということでした。自分の超AIを1tk/秒で動かせるのなら、その選択肢が欲しかったんです。結果は、想像以上でした。私たちは本当に超AGIを持っていて、それらを安く・速く動かせます。
巨大モデルはさておき、数百ドルで自宅にいながらqwen3.6-36bを50tk/秒で動かせます。だから、ローカルLlama好きの皆さん、狂ったままでいよう、実験を続けよう、否定派は無視しよう。あの「バカげた」「時間の無駄」みたいな実験は、ちゃんと成果を出しているんです。
[link] [comments]
