AI Navigate

ノイズの多いデータは検証可能な報酬を用いた強化学習に破壊的な影響を及ぼす

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、RLVR(検証可能な報酬を用いた強化学習)がノイズ付きアノテーションから効果的に学習できるという以前の主張は、いわゆるノイズ付きデータセットがクリーンデータで汚染されていたため無効であることを示した。
  • データセットを訂正するための厳密な再検証パイプラインを導入し、ノイズがRLVRにとって破壊的であることを実証した。
  • さらに、RLVRアルゴリズムに対して主張された改善はノイズの影響を緩和せず、基本的なGRPOベースラインと同程度の性能しか示さなかった。
  • 数学的推論ベンチマークでは、実際に誤ったアノテーションで学習したモデルは、クリーンデータで学習したモデルより8〜10%悪い。
  • 実世界のText2SQLタスクでは、人間のアノテーションエラーを含む学習は、クリーンデータで学習した場合より精度が5〜12%低くなることが示され、データ品質の重要性を強調している。

要約:検証可能な報酬を用いた強化学習(RLVR)は、さまざまな領域における大規模言語モデルの最近の能力向上を促してきました。最近の研究は、改良されたRLVRアルゴリズムがモデルを不正確な注釈から効果的に学習させ、クリーンデータから学習した場合と同等の性能を達成できることを示唆しています。本研究では、主張されている100%のノイズ付きトレーニングデータがクリーンデータと混入しているため、これらの知見が無効であることを示します。厳密な再検証パイプラインによってデータセットを是正した後、ノイズはRLVRにとって破壊的であることを示します。既存のRLVRアルゴリズムの改善はノイズの影響を緩和できず、基本的なGRPOと同等の性能を達成します。さらに、真に不正確な注釈で訓練したモデルは、クリーンデータで訓練したモデルより、数学的推論ベンチマーク全体で8〜10%低下します。最後に、Text2SQLタスクにおける現実世界のノイズにもこれらの知見が適用されることを示します。現実世界の人間の注釈エラーで訓練した場合、クリーンデータより5〜12%低い精度となります。我々の結果は、現在のRLVR手法ではデータ品質の低さを十分に補えないことを示しており、高品質なデータが依然として不可欠です。

返却形式: {"translated": "翻訳されたHTML"}