JigsawRL:効率的なLLMポストトレーニングのための強化学習(RL)パイプライン組み立て
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- JigsawRLは、LLMポストトレーニングにおける並列性の新しい次元として「パイプライン・マルチプレクシング」を活用する、コスト効率の高いRLポストトレーニング基盤です。
- パイプラインを「サブ・ステージ・グラフ」に分解することで、従来のステージ単位の仕組みでは見えにくい、ステージ内の不均衡とワーカー間の不均衡を可視化します。
- マルチプレクシング干渉は動的なリソース割り当てで抑え、長いテールのロールアウトをワーカー間で移送することで、利用率の断片化を解消します。
- 移送したロールアウトの協調はグラフスケジューリング問題として定式化され、先読みヒューリスティックで解かれます。
- H100/A100を4〜64枚で用いた実験では、同期RLで最大1.85×、非同期RLで最大1.54×のスループット向上を示し、異種パイプラインにも中程度のレイテンシ負担で対応できます。




