H100を(AWSのエグレス課金なしで)実際に飽和させられるS3互換ストレージはある?[R]

Reddit r/MachineLearning / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Lambda LabsのH100 GPUでチームが学習を行っているが、40TB超のデータセットに対するAWS S3のエグレスコストが高額で、代替手段を検討している。
  • S3互換のCloudflare R2を試したものの、TTFBが一貫しないためデータローダーが停止し、学習中にGPUが約20%未利用のままになっている。
  • この投稿は、高速なストリーミング学習に必要なレイテンシ/スループットを維持できる「ゼロ・エグレス」(または低エグレス)なストレージの選択肢があるかどうかを問うている。
  • 示唆されている解決方向としては、ストレージのレイテンシを隠してGPUを飽和状態に保つための、独自のNVMeキャッシュ層を構築する可能性が挙げられている。
  • 議論では、この問題をモデル学習そのものではなく、インフラ/スループットのボトルネックとして捉え、データパイプライン全体の性能(エンドツーエンド)を重視している。

私たちは Lambda Labs のクラスタで学習していますが、主なデータセット(40TB超)は AWS S3 に置いてあります。エグレス料金が高いので、Cloudflare R2 でそれを行おうとしました。問題は R2 の TTFB が安定せず、データローダーが常に I/O 待ちになってしまうことです。すると、GPU はエポックの20%が使われない状態になります。

本当に高スピードのストリーミングに必要なスループット/レイテンシを備えた、エグレスがゼロの代替手段はありますか? それとも、カスタムの NVMe キャッシュ層を作り込むしかないのでしょうか?

以下によって投稿されました /u/regentwells
[リンク] [コメント]