こんにちは、ビルダーの皆さん! vLLM、TGI、Triton などのフレームワークを使って LLM 推論を行っているなら、推論はコンピュート制約ではなくメモリ帯域の制約(メモリ・バンド幅・バウンド)だということをご存じでしょう。
Leo Servers のブログに、標準的なクラウド VM がなぜトランスフォーマーの注意機構を積極的に妨害するのかを詳解した、大規模な技術的ブレイクダウンを公開しました。
記事の技術的ハイライト:
連続バッチングのジッター:クラウドのハイパーバイザーによるメモリ・バルーニングが PagedAttention を直接的に干渉し、致命的な OOM エラーやスループットの低下を引き起こす仕組み。
カーネルレベルのボトルネック:FlashAttention は SRAM 内で計算をタイル化することで、HBM の読み取り/書き込みを最小化します。仮想化された GPU 環境ではドライバーレベルのオーバーヘッドがこれらの利点を相殺します。ベアメタルならそれを維持できます。
NVLink vs. PCIe:70B+ モデルのためのテンソル並列は、NVLink 4.0 の双方向 900 GB/s の帯域が絶対に必要な理由と、クラウドのネットワーク抽象化がすべての all-reduce 操作を遅くする理由。
本番環境にデプロイするなら、排他的なハードウェアアクセスが必要です。モデル(7B から 400B+)ごとの正確な VRAM 下限と、適切なクラスタの選び方を解説します。
詳細は、さらに読み進めてブログリンクをご覧ください: [https://www.leoservers.com/blogs/category/why/llms-require-bare-metal-gpus/]


