要約:検証可能な報酬を用いた強化学習(RLVR)は、さまざまな領域における大規模言語モデルの最近の能力向上を促してきました。最近の研究は、改良されたRLVRアルゴリズムがモデルを不正確な注釈から効果的に学習させ、クリーンデータから学習した場合と同等の性能を達成できることを示唆しています。本研究では、主張されている100%のノイズ付きトレーニングデータがクリーンデータと混入しているため、これらの知見が無効であることを示します。厳密な再検証パイプラインによってデータセットを是正した後、ノイズはRLVRにとって破壊的であることを示します。既存のRLVRアルゴリズムの改善はノイズの影響を緩和できず、基本的なGRPOと同等の性能を達成します。さらに、真に不正確な注釈で訓練したモデルは、クリーンデータで訓練したモデルより、数学的推論ベンチマーク全体で8〜10%低下します。最後に、Text2SQLタスクにおける現実世界のノイズにもこれらの知見が適用されることを示します。現実世界の人間の注釈エラーで訓練した場合、クリーンデータより5〜12%低い精度となります。我々の結果は、現在のRLVR手法ではデータ品質の低さを十分に補えないことを示しており、高品質なデータが依然として不可欠です。
返却形式: {"translated": "翻訳されたHTML"}


