トークン生成速度ばかり注目されているけど、真のボトルネックはプリフィルでは?何か見落としてる?

Reddit r/LocalLLaMA / 2026/5/7

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • 著者は、ベンチマークや議論がトークン生成速度(tokens/s)ばかりに偏っており、実際の体感遅延の主因はプリフィル(プロンプト処理)であることが多いと主張しています。
  • 複数のモデルとGPUでの実験経験から、デコード開始後は生成速度が(例:~15 t/s程度でも)十分に使える一方で、モデルがプロンプトを読み込む待ち時間が全体の壁時計時間を支配しがちだと報告しています。
  • 具体例としてQwen 27B Q6では、生成が約~15 t/sである一方、プリフィルは~300 t/sとされ、著者は返信完了を待つ時間よりもプロンプト処理により長く時間を費やしていると述べています。
  • さらに、最近のMTPに関する話題は、生成速度だけを改善しても一般的な用途ではエンドツーエンド時間の短縮にあまり効かない可能性を補強するとしています。
  • 他の人の使い方が違うのではないかと問いかけつつ、自身の主な作業がエージェント的で(モデルがコードベースの一部を取り込む必要がある)、通常のチャットよりプリフィル/文脈の取り込みが大きなボトルネックになる点を追加しています。

私は毎日このサブを読んでいますが、ベンチマークや議論がほぼ完全にトークン/秒の生成速度に集中しているのを、ずっと見ています。プロンプト処理速度についてはほとんど触れられません。

いろいろなGPUで、さまざまなタスクに対して多数の異なるモデルを動かしてみた自分の経験からすると、プリフェル(prefill)段階が、実際に「遅い」と感じる部分であることが多いです。生成が始まると、たとえ「たった」15 t/sでも、私にとっては十分に使えます。モデルがプロンプトを食べるまでの待ち時間が、ほとんどの時間を奪っています。

最近のMTPに関するあらゆる誇大広告を見ると、その感覚がより強くなります。生成速度の改善が、典型的なユースケースでの総ウォールクロック時間にあまり影響しないのなら、なぜ皆がそこにレーザーのように集中しているのでしょうか?

たとえば、Qwen 27B Q6では、今のセットアップで生成は約15 t/sが出ています(何をしていても問題ないと感じる速度です)が、プリフェルでは約300 t/sしか出ません。私は、実際の返信が終わるのを待つよりも、処理されている様子をずっと見つめて過ごす時間のほうがずっと長いです。プロンプトキャッシングがあってもです。

多くの人がこれらのモデルを使う方法について、私が何か誤解しているのでしょうか? 他の人がどんな状況を見ているのか気になります。

追記:モデルが実際に有用なことをする前に、コードベースの一部を取り込まないといけないエージェント的な作業がほとんどなので、そのことを言い忘れていました。通常のチャットなら、これは当然問題になりません。文脈が小さく保たれて、読み進める速度に追いつくのに十分なt/sがあればいいだけです。

submitted by /u/wbulot
[link] [comments]