DORA:言語モデル学習のためのスケーラブルな非同期強化学習システム

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、言語モデルの事後学習における強化学習(RL)をスケールさせるための非同期学習システムDORAを提案し、偏った長い尾(long-tailed)生成によるボトルネックに取り組みます。
  • DORAは、非同期RLの収束に不可欠な条件である「軌道内の方策整合性」「データの完全性」「適度に制限された陳腐化(bounded staleness)」を満たすよう設計されており、既存手法はそれらを十分に満たせない/逸脱しやすいと述べています。
  • 中核となる手法は、複数の方策バージョンを同時に維持する「マルチバージョン・ストリーミング・ロールアウト」で、アルゴリズム制約を損なうことなく学習の“バブル”を解消します。
  • 実験では、収束を損なわずにオープンベンチマークで既存の最先端システム比2〜3倍のスループット向上を示し、また数万台規模のアクセラレータを用いる大規模な産業環境では同期学習比2〜4倍の加速を報告しています。
  • さらに、オープンソースモデル(LongCat-Flash-Thinking)を公開しており、複雑な推論ベンチマークで高度なLLMの多くに匹敵する競争力ある性能を示します。