要旨: 分散トレーニングは、1回の反復で処理されるバッチ数を、スケールアウト(ノードを追加する)またはスケールアップ(バッチサイズを増やす)によって増やします。しかし、最大構成が必ずしも最高の性能をもたらすとは限りません。水平スケーリングは追加の通信オーバーヘッドを生じさせ、垂直スケーリングは計算コストとデバイスメモリの制限によって制約を受けます。したがって、単純にバッチサイズを増やすだけでは収益の逓減が生じます。トレーニング時間とコストは初期には低下しますが、最終的には頭打ちになり、時間/コストとバッチサイズのパレート曲線に膝点が生じます。したがって、最適なバッチサイズは、基礎となるモデル、データ、および利用可能な計算リソースに依存します。大きなバッチは、よく知られている一般化ギャップのため、モデル品質が低下するという問題も生じます。本論文では、畳み込みモデルの大規模バッチ訓練において、時間・コスト・収束品質を自動的に最適化するオンラインサービス「Tula」を紹介します。これは、並列システムのモデリングと統計的性能予測を組み合わせて、最適なバッチサイズを特定します。Tula は複数のモデルにわたって訓練時間とコストを7.5-14%の誤差で予測し、標準的な大規模バッチ訓練と比較して全体のスピードアップを最大で20倍達成し、さまざまな視覚タスクでテスト精度を平均9%向上させます。これにより、一般化ギャップを効果的に緩和し、同時に訓練を加速します。
Tula: 分散型大規模バッチ訓練における時間・コスト・汎化の最適化
arXiv cs.LG / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Tula は、並列システムのモデリングと統計的性能予測を組み合わせて、畳み込みモデルの大規模バッチ分散訓練における訓練時間・コスト・収束品質を自動的に最適化するオンラインサービスです。
- 複数のモデルにおいて訓練時間とコストを7.5〜14%の誤差で予測し、与えられたリソースとデータに対して最適なバッチサイズを特定できるようにします。
- さまざまな視覚タスクにおける標準的な大規模バッチ訓練と比較して、最大20倍の速度改善と平均約9%のテスト精度向上を達成し、一般化のギャップに対処します。
- この手法は、通信オーバーヘッドとメモリ制約によって生じる、時間・コスト対バッチサイズのパレート曲線の膝点を、単にバッチサイズを増やすのではなく緩和します。
- バッチサイズを自動的に最適化することで、Tula は訓練コストを削減し、実験を迅速化します。これにより、分散型機械学習ワークロードのインフラストラクチャとスケジューリングの意思決定に情報を提供します。