最近ローカルLLMを使っていて気づいたのは、ほとんどの場合ボトルネックはデコードではなくプロンプト処理にあるということです。
プロンプト処理の速度が使えるなら、多くの設定(エージェント的なコーディング標準に基づいて開始すると約15kかかるので)では、生成時に10トークン/秒を超えますが、これは目で追える速度を超えるのではないでしょうか?
qwen3.6 27bを使ってみようとしましたが、mac miniで64kのプロンプトを処理するのに10分以上かかったので、むしろ35b a3bを選びました
私は何を見落としているのでしょうか? MTPやその他の方法でプロンプト処理速度は改善されるのでしょうか?
それとも、離散GPUの設定によってボトルネックの性質が本当に変わるだけなのでしょうか?
[link] [comments]



