皆さんこんにちは、
ビジネス用途のユースケースで、LLMインフラを社内に持ち込むことに取り組んでいます。プロダクション環境を運用している方からの意見がとてもありがたいです。
予算: 50kドルから150kドル(USD)
デプロイ: オンプレミス(データの機密性)
ユースケース: 社内ツール + プライベート文書に対するRAG + 微調整
スケール:
∙ 少人数のユーザーから開始
∙ 約50人の同時ユーザーへの拡大を計画
要件:
∙ 複数ユーザーに対する推論のスループットが強いこと
∙ 最新のオープン重みモデルに対応(密モデル + MoE)
∙ 長いコンテキスト対応(32kから128k+ が基本。スループットを落とさずに、実際の複数ユーザー環境でどこまでコンテキスト長を伸ばしているのか、皆さんがどれくらい現実的にプッシュしているか知りたいです)
∙ 最大性能よりも安定性と稼働率が重要
現在の方向性:
∙ 主な選択肢として、4× RTX Pro 6000 Max-Q を検討しています
∙ ただ、こうしたワークロードで本当に競争力があるなら、Appleのハードウェアも検討しています
質問(Hardware):
- 走らせているモデルに合わせて、特におすすめのハードウェア構成はありますか?
- この規模ではNVLinkを優先すべきでしょうか、それとも価値がないのでしょうか?
- このような構成を作る場合、CPU、マザーボード(PCIeレーン/レイアウト)、RAM、ストレージ(NVMe、RAIDなど)、電源について何をおすすめしますか?
- 信頼性/故障ポイントに関する実世界の学びはありますか?
質問(Models):
- 今、プロダクションでローカルに実際に動かしているモデルは何ですか?
- RAG + 社内ツールの場合、実際にうまくいっているのは何ですか?
- 品質、VRAM使用量、負荷時のスループットのバランスが良い「スイートスポット」のモデルはありますか?
サービングスタック:
この規模の複数ユーザーのプロダクション環境では、vLLMは依然として最適なデフォルト選択肢でしょうか?
アーキテクチャの質問:
このようなビジネス用途では、まず強力なRAG + 良いベースモデルで成功して、次に振る舞い/スタイルのために微調整を追加するケースが多いのでしょうか。それとも、現実のデプロイでは微調整がより早い段階で必要になりつつありますか?
検討対象:
∙ 既使用/リファービッシュされたエンタープライズ機器
∙ 現実的な構成 + ベンチマーク
∙ 「知っておきたかった」学び
ここで、生産環境に耐えるしっかりした判断をしたいので、どんな洞察でも本当にありがたいです。
ありがとうございます!
[link] [comments]



