IsoCompute Playbook: LLM RLのサンプリング計算を最適にスケールする

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、LLMsにおけるオンポリシーRLの計算最適配分を調査し、3つのリソースに焦点を当てる:問題あたりの並行ロールアウト数、バッチあたりの問題数、更新ステップ数。
  • 計算予算が増えると、問題あたりの並行ロールアウトの計算最適数は予測可能に増加し、その後飽和する。これは、容易な問題での解のシャープ化と難しい問題でのカバレッジ拡大によって駆動される。
  • 並行ロールアウトを増やすと問題間の干渉が減少し、バッチあたりの問題数は主に学習の安定性に影響を与え、広い範囲から選択できる。
  • 基本モデルとデータ分布のもとで検証され、RLのスケーリング則を処方的な割り当て規則として再定義し、計算効率の良いLLM RLのポストトレーニングに向けた実践的な指針を提供する。
スケーリング法則はLLMの事前学習における計算配分を導く一方で、LLMs のポストトレーニングにおける強化学習(RL)に対する同様の処方は依然として十分には理解されていない。私たちは、LLMs におけるオンポリシーRL手法のサンプリング計算の計算最適配分を研究し、スケーリングを3つのリソース(問題あたりの並行ロールアウト数、バッチあたりの問題数、更新ステップ数)に対する計算制約下の最適化として位置づける。計算最適数は、計算予算が増えると予測可能に増加し、その後飽和することを見出す。この傾向は、容易な問題と難しい問題の両方で成立し、しかし異なるメカニズムにより駆動される:容易な問題では解のシャープ化、難しい問題ではカバレッジ拡大。さらに、並行ロールアウトの数を増やすと問題間の干渉が緩和され、バッチあたりの問題数は主に学習の安定性に影響を与え、広い範囲から選択できる。基本モデルとデータ分布のもとで検証され、我々の結果は RL のスケーリング法則を処方的な割り当て規則として再定義し、計算効率の良い LLM RL ポストトレーニングに向けた実践的な指針を提供する。