私は毎日このサブを読んでいますが、ベンチマークや議論がほぼ完全にトークン/秒の生成速度に集中しているのを、ずっと見ています。プロンプト処理速度についてはほとんど触れられません。
いろいろなGPUで、さまざまなタスクに対して多数の異なるモデルを動かしてみた自分の経験からすると、プリフェル(prefill)段階が、実際に「遅い」と感じる部分であることが多いです。生成が始まると、たとえ「たった」15 t/sでも、私にとっては十分に使えます。モデルがプロンプトを食べるまでの待ち時間が、ほとんどの時間を奪っています。
最近のMTPに関するあらゆる誇大広告を見ると、その感覚がより強くなります。生成速度の改善が、典型的なユースケースでの総ウォールクロック時間にあまり影響しないのなら、なぜ皆がそこにレーザーのように集中しているのでしょうか?
たとえば、Qwen 27B Q6では、今のセットアップで生成は約15 t/sが出ています(何をしていても問題ないと感じる速度です)が、プリフェルでは約300 t/sしか出ません。私は、実際の返信が終わるのを待つよりも、処理されている様子をずっと見つめて過ごす時間のほうがずっと長いです。プロンプトキャッシングがあってもです。
多くの人がこれらのモデルを使う方法について、私が何か誤解しているのでしょうか? 他の人がどんな状況を見ているのか気になります。
追記:モデルが実際に有用なことをする前に、コードベースの一部を取り込まないといけないエージェント的な作業がほとんどなので、そのことを言い忘れていました。通常のチャットなら、これは当然問題になりません。文脈が小さく保たれて、読み進める速度に追いつくのに十分なt/sがあればいいだけです。
[link] [comments]




