さて、ここにいるほとんどの皆さんと同じで、私は llama.cpp の忠実な支持者です。分かりやすい、設定が優れている、比較的安定している、などなど。ですが、vLLM にはますます惹かれてきました。特に、AMD がそれを Lemonade に内蔵の推論エンジンとして追加したこと、そして私には AMD GPU があることが大きいです。問題は、私はこれまで実際に vLLM を直接使ったことがないという点です。ただ、llama.cpp と比べたときのパフォーマンスについては良い話を聞いていて、vLLM はだいたい全般にわたってそれを上回っているらしいです。
ただし、私は自分のモデルを自分だけに提供しているだけです。つまり、他人のためのホスティングなど気にする必要はありません。また、聞いた話としては、vLLM は同時に多数のリクエストをさばくようなシナリオ向けにより設計されているとのことです。それでも、見えている(らしい)スピードアップは気になってしまいます。
ここにいる誰かが実際にこれをやったことはありますか? 手間の割に得られるものがあるのでしょうか?それとも、基本的には体感できず、気にするほどのことではないのでしょうか? 企業向けのような環境で使うだけではなくて、そうしたものではない人たちの経験談を聞けると嬉しいです。
どんな助けでもありがたいです、ty!
[link] [comments]



