AIネイティブのクラウド組み込み知能インフラストラクチャ向け 千GPU規模のトレーニングと最適化レシピ
arXiv cs.AI / 2026/3/13
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、LeRobotフレームワーク上に構築された、データ、フレームワーク、インフラストラクチャ、評価のボトルネックに対処するクラウドベースの千GPU分散トレーニングプラットフォームを具現化知能向けに開始したことを発表します。
- GR00T-N1.5モデルについて、千GPUクラスターと数億規模のデータを活用することで、1ラウンドあたりのトレーニング時間を約15時間から22分へ短縮し、40倍の速度向上を実現しました。
- アーキテクチャと最適化の利点として、Data Packingを組み合わせた可変長FlashAttention(188%の速度向上)、π-0.5アテンション最適化(165%)、FP8量子化(140%)が挙げられ、高性能ストレージと3.2T RDMAネットワークを備えた構成となっています。
- トレーニングからシミュレーション、評価までのクローズドループを実現するエンドツーエンドの評価システムを構築しました。さらにこのフレームワークは千GPUクラスター上で検証済みであり、次世代の自律ロボティクスおよび人間と機械の統合の発展を支える重要な技術基盤となっています。
具現化された知能は人工汎用知能(AGI)への重要なステップですが、その開発にはデータ、フレームワーク、インフラストラクチャ、評価システムを含む複数の課題があります。これらの課題に対処するため、業界で初めて、広く採用されているLeRobotフレームワークに基づく具現化知能向けのクラウドベースの千GPU分散トレーニングプラットフォームを開始し、全パイプラインにわたるボトルネックを体系的に克服しました。データ層では、具現化された訓練データの流れを最適化するようデータパイプラインを再構築しました。トレーニングの面では、GR00T-N1.5モデルについて、千GPUクラスターと数億規模のデータを活用することで、単一ラウンドのトレーニング時間を約15時間からわずか22分へと短縮し、40倍の加速を達成しました。モデル層では、可変長FlashAttentionとData Packingを組み合わせることで、サンプルの冗長性をシーケンス統合へ移行させ、188%の速度向上を実現しました。π-0.5アテンション最適化はトレーニングを165%向上させ、FP8量子化は140%の加速をもたらしました。インフラ側では、高性能ストレージ、3.2T RDMAネットワーク、Ray駆動の弾性AIデータレイクに依存することで、データ・ストレージ・通信・計算の間で深いシナジーを達成しました。また、トレーニングからシミュレーション、評価までのクローズドループを実現するエンドツーエンドの評価システムを構築しました。このフレームワークはすでに千GPUクラスター上で完全に検証されており、次世代自律知能ロボットの開発と応用のための重要な技術基盤を提供するとともに、人間と機械の統合時代の到来を加速することが期待されています。