私たちは Lambda Labs のクラスタで学習していますが、主なデータセット(40TB超)は AWS S3 に置いてあります。エグレス料金が高いので、Cloudflare R2 でそれを行おうとしました。問題は R2 の TTFB が安定せず、データローダーが常に I/O 待ちになってしまうことです。すると、GPU はエポックの20%が使われない状態になります。
本当に高スピードのストリーミングに必要なスループット/レイテンシを備えた、エグレスがゼロの代替手段はありますか? それとも、カスタムの NVMe キャッシュ層を作り込むしかないのでしょうか?
[リンク] [コメント]




