ノイズの多いデータは検証可能な報酬を用いた強化学習に破壊的な影響を及ぼす

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、RLVR（検証可能な報酬を用いた強化学習）がノイズ付きアノテーションから効果的に学習できるという以前の主張は、いわゆるノイズ付きデータセットがクリーンデータで汚染されていたため無効であることを示した。
データセットを訂正するための厳密な再検証パイプラインを導入し、ノイズがRLVRにとって破壊的であることを実証した。
さらに、RLVRアルゴリズムに対して主張された改善はノイズの影響を緩和せず、基本的なGRPOベースラインと同程度の性能しか示さなかった。
数学的推論ベンチマークでは、実際に誤ったアノテーションで学習したモデルは、クリーンデータで学習したモデルより8〜10％悪い。
実世界のText2SQLタスクでは、人間のアノテーションエラーを含む学習は、クリーンデータで学習した場合より精度が5〜12％低くなることが示され、データ品質の重要性を強調している。

要約：検証可能な報酬を用いた強化学習（RLVR）は、さまざまな領域における大規模言語モデルの最近の能力向上を促してきました。最近の研究は、改良されたRLVRアルゴリズムがモデルを不正確な注釈から効果的に学習させ、クリーンデータから学習した場合と同等の性能を達成できることを示唆しています。本研究では、主張されている100%のノイズ付きトレーニングデータがクリーンデータと混入しているため、これらの知見が無効であることを示します。厳密な再検証パイプラインによってデータセットを是正した後、ノイズはRLVRにとって破壊的であることを示します。既存のRLVRアルゴリズムの改善はノイズの影響を緩和できず、基本的なGRPOと同等の性能を達成します。さらに、真に不正確な注釈で訓練したモデルは、クリーンデータで訓練したモデルより、数学的推論ベンチマーク全体で8〜10％低下します。最後に、Text2SQLタスクにおける現実世界のノイズにもこれらの知見が適用されることを示します。現実世界の人間の注釈エラーで訓練した場合、クリーンデータより5〜12％低い精度となります。我々の結果は、現在のRLVR手法ではデータ品質の低さを十分に補えないことを示しており、高品質なデータが依然として不可欠です。

返却形式: {"translated": "翻訳されたHTML"}

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

ノイズの多いデータは検証可能な報酬を用いた強化学習に破壊的な影響を及ぼす

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？