JigsawRL:効率的なLLMポストトレーニングのための強化学習(RL)パイプライン組み立て

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • JigsawRLは、LLMポストトレーニングにおける並列性の新しい次元として「パイプライン・マルチプレクシング」を活用する、コスト効率の高いRLポストトレーニング基盤です。
  • パイプラインを「サブ・ステージ・グラフ」に分解することで、従来のステージ単位の仕組みでは見えにくい、ステージ内の不均衡とワーカー間の不均衡を可視化します。
  • マルチプレクシング干渉は動的なリソース割り当てで抑え、長いテールのロールアウトをワーカー間で移送することで、利用率の断片化を解消します。
  • 移送したロールアウトの協調はグラフスケジューリング問題として定式化され、先読みヒューリスティックで解かれます。
  • H100/A100を4〜64枚で用いた実験では、同期RLで最大1.85×、非同期RLで最大1.54×のスループット向上を示し、異種パイプラインにも中程度のレイテンシ負担で対応できます。