DORA：言語モデル学習のためのスケーラブルな非同期強化学習システム

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、言語モデルの事後学習における強化学習（RL）をスケールさせるための非同期学習システムDORAを提案し、偏った長い尾（long-tailed）生成によるボトルネックに取り組みます。
DORAは、非同期RLの収束に不可欠な条件である「軌道内の方策整合性」「データの完全性」「適度に制限された陳腐化（bounded staleness）」を満たすよう設計されており、既存手法はそれらを十分に満たせない/逸脱しやすいと述べています。
中核となる手法は、複数の方策バージョンを同時に維持する「マルチバージョン・ストリーミング・ロールアウト」で、アルゴリズム制約を損なうことなく学習の“バブル”を解消します。
実験では、収束を損なわずにオープンベンチマークで既存の最先端システム比2〜3倍のスループット向上を示し、また数万台規模のアクセラレータを用いる大規模な産業環境では同期学習比2〜4倍の加速を報告しています。
さらに、オープンソースモデル（LongCat-Flash-Thinking）を公開しており、複雑な推論ベンチマークで高度なLLMの多くに匹敵する競争力ある性能を示します。

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to

Dev.to