AI Navigate

スコアリングの学習:強化学習によるクラスタスケジューラのチューニング

arXiv cs.LG / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、クラスタスケジューラが用いるスコアリング関数の重みを学習するための強化学習アプローチを提案し、エンドツーエンドのジョブ性能を改善します。
  • 本手法は、マルチステップのパラメータ調整と実験間の情報漏えいに対処するため、パーセント改善報酬、フレームスタッキング、そしてドメイン情報の制限を導入します。
  • 本手法は多様なワークロードとクラスタ構成で学習され、ラボのサーバーレス環境において、固定重みと比較して平均約33%、最良ベースラインと比較して約12%の改善を示します。
  • 本研究は、大規模クラスタにおけるスケジューラ調整の自動化の可能性を強調し、専門家によるチューニングへの依存を減らし、資源の利用を向上させることを示唆します。
要旨:大規模クラスターにおける着信ジョブをノードへ効率的に割り当てることは、クラスタ利用率とジョブ性能の双方を大幅に改善する可能性があります。着信ジョブを割り当てるために、クラスタスケジューラは通常、実現可能なノードをランク付けする一連のスコアリング関数に依存します。個々のスコアリング関数の結果は通常等しく重み付けされるため、ワークロードの特性を考慮しないワンサイズ・フィット・オールの解決策は最適でない展開を招く可能性があります。しかし、スコアリング関数の重みを調整するには専門知識が必要で、計算コストも高くつきます。 本論文は、指定されたクラスタにおけるジョブのエンドツーエンド性能を向上させるという全体的な目的のために、スケジューラのスコアリングアルゴリズムの重みを学習するための強化学習アプローチを提案します。我々のアプローチは、パーセント改善報酬、フレームスタッキング、およびドメイン情報の制限に基づいています。マルチステップのパラメータチューニングという目的に対処するため、パーセント改善報酬を提案します。フレームスタッキングの導入により、最適化実験を跨ぐ情報を持ち越すことが可能になります。ドメイン情報の制限は過学習を防ぎ、未見のクラスタとワークロードにおける性能を改善します。ポリシーは、さまざまなワークロードとクラスタ設定の組み合わせで訓練されます。我々は、提案されたアプローチが、固定重みに比べて平均33%の性能改善、最も良く機能するベンチマークと比べて12%の性能改善を、ラボベースのサーバーレス環境で示します。