生きているのが最高な時代:巨大モデルを1tk/秒から20〜100tk/秒へ

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンSignals & Early TrendsTools & Practical UsageIndustry & Market Moves

要点

  • この投稿は、ローカル推論の速度が大きく進歩し、かつてLlama 405Bを約1.2 tk/secで動かせていた同じようなハードウェアで、現在は30〜100 tk/sec程度でより巨大な最先端モデルを動かせるようになったと主張しています。
  • Kimik2.6、DeepSeekV4Flash、Minimax2.7、Step3.5Flash、Qwen3.5-397Bなどの大規模モデルをローカルで動かす具体例を挙げ、従来のモデルより大幅に性能が伸びていると述べています。
  • 著者は、遅いモデルを動かすことへの懐疑があった過去を振り返り、非常に高度なAI/AGIの到来に備えるために実験していたと語っています。
  • また、数百ドルあれば家庭でQwen3.6-36Bのような小〜中規模の大規模言語モデルを約50 tk/secという高スループットで動かせるとも強調しています。
  • 全体として、ローカルLLaMA勢に継続的な実験を勧め、批判を無視すべきだとし、ローカルAIの進歩を「実験が報われている証拠」と位置づけています。

https://www.reddit.com/r/LocalLLaMA/comments/1eb6to7/llama_405b_q4_k_m_quantization_running_locally/

https://www.reddit.com/r/LocalLLaMA/comments/1ebbgkr/llama_31_405b_q5_k_m_running_on_amd_epyc_9374f/

2年前、1.2tk/秒で動くLlama405bのq4は、期待に胸が躍るようなものでした。

その同じハードウェアが今では、巨大な最先端モデル(kimik2.6、deepseekv4flash、minimax2.7、step3.5flash、qwen3.5-397b)を30tk-100tk/秒で動かしながら、Llama405bを粉砕しています。:-/

私は、なぜ誰かがLlama405bを1.2/tkなどで動かしたいのかを尋ねる人がいるのを覚えています。そう聞かれたとき、私の答えは、AGIが到来したときに備えておきたかったということでした。自分の超AIを1tk/秒で動かせるのなら、その選択肢が欲しかったんです。結果は、想像以上でした。私たちは本当に超AGIを持っていて、それらを安く・速く動かせます。

巨大モデルはさておき、数百ドルで自宅にいながらqwen3.6-36bを50tk/秒で動かせます。だから、ローカルLlama好きの皆さん、狂ったままでいよう、実験を続けよう、否定派は無視しよう。あの「バカげた」「時間の無駄」みたいな実験は、ちゃんと成果を出しているんです。

submitted by /u/segmond
[link] [comments]