Webscale-RL: 強化学習データを事前学習レベルまでスケールするための自動データパイプライン

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、事前学習用の大規模文書を、強化学習(RL)のために数百万件の多様で検証可能な質問—回答ペアへと変換することを目的としたパイプライン「Webscale-RL」を提案する。
  • 9以上のドメインにまたがる1.2百万件の例からなるWebscale-RLデータセットを構築したことを報告し、Webスケールのコーパスに対する従来からのRLデータのボトルネックを解消することを目指す。
  • 実験の結果、このデータセットでのRL学習は、複数のベンチマークにおいて、継続的事前学習やいくつかのデータ精製ベースラインよりも優れた性能を示す。
  • 著者らは主要な学習効率の向上を主張しており、RLは最大で100分の1のトークン数で、継続的事前学習と同等の性能に到達できるとしている。
  • 全体として本研究は、言語モデル開発における推論力の強化と計算効率の改善の両方を狙い、RLを「事前学習レベルまで」スケールするための実用的な道筋を提示している。