ノイズのある教師信号下で、LLMは頑健に推論を学習できるのか?

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検証可能な報酬による強化学習(RLVR)の推論モデルが、訓練シグナルにノイズ付きラベルが含まれる場合にどのように振る舞うかを調査しており、ノイズが避けられない「専門家のデータ不足(expert-scarcity)」の設定に焦点を当てている。
  • 「不活性なノイズ付きラベル」(主にデータ効率を低下させる)と、「活性なノイズ付きラベル」(ロールアウト過程によって強化され、誤った推論分布へモデルを偏らせうる)を区別している。
  • 実験により、Early Correctness Coherence(初期の正しさ整合性)効果が明らかになる。すなわち、訓練の初期段階では、クリーン・サンプルとノイズ・サンプルの双方における精度が同様に改善する一方で、後になるとノイズ・サンプルが遅れをとる。
  • この動態に動機づけられて、著者らはオンライン・ラベル改良(Online Label Refinement; OLR)を提案する。これは、ロールアウトの通過率の推移および過去の一貫性条件が満たされる場合に、多数決投票された解答を用いて疑わしいノイズ付きラベルを段階的に修正する。
  • ノイズ比率0.1〜0.9の複数の数学・一般推論ベンチマークにおいて、OLRは頑健性を改善し、インディストリビューションで平均約3.6〜3.9%、アウト・オブ・ディストリビューションで平均約3.3〜4.6%の向上が得られる。