広告

競合するモデル要求をキューに入れるように、llama-swap をセットアップする方法はありますか?

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事は、48GB のワークステーション上で動作している LlamaSwap を、GPU/ホストメモリが使い切られたときに、受け付けるモデル推論リクエストを失敗させるのではなくキューに入れるように設定できるかどうかを問うています。
  • 著者は、実際のモデルのホスティング/スワッピングの挙動を LlamaSwap インスタンスに委譲しつつ、フロントエンドの API レイヤーとして引き続き LiteLLM を使うつもりです。
  • 同一の API エンドポイントの背後で複数のモデルをサポートし、学生が希望するモデルを選んで要求できるようにする方法を求めています。
  • 著者はさらに、AMD ハードウェアを使うことが LlamaSwap/LiteLLM の統合や性能面で追加の複雑さをもたらすのかどうかも質問しています。
  • 全体として、この要望は教育/学生がアクセスするためのセットアップにおける、運用上の振る舞い(リクエスト処理と同時実行性)とデプロイに関する検討事項に焦点を当てています。

皆さんこんにちは:) タイトルのとおり、学生向けに API エンドポイントとして 48GB のワークステーションを提供したいと考えています。現在は litellm を使っているのですが、引き続きそれを使いたいです。ただ、その裏側では、いくつかの異なるモデルを提供できるように、そして学生には欲しいものを単にクエリしてもらえるように、動作させるために llama swap のインスタンスを取得したいです。ですが、メモリが残っていない場合は、そのジョブをキューに入れたいです。そういった機能はありますか?

また、私は AMD 上で動かしていますが、これによって追加の問題は発生しますか?

投稿者 /u/Noxusequal
[リンク] [コメント]

広告