ノイズのある教師信号下で、LLMは頑健に推論を学習できるのか？

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、検証可能な報酬による強化学習（RLVR）の推論モデルが、訓練シグナルにノイズ付きラベルが含まれる場合にどのように振る舞うかを調査しており、ノイズが避けられない「専門家のデータ不足（expert-scarcity）」の設定に焦点を当てている。
「不活性なノイズ付きラベル」（主にデータ効率を低下させる）と、「活性なノイズ付きラベル」（ロールアウト過程によって強化され、誤った推論分布へモデルを偏らせうる）を区別している。
実験により、Early Correctness Coherence（初期の正しさ整合性）効果が明らかになる。すなわち、訓練の初期段階では、クリーン・サンプルとノイズ・サンプルの双方における精度が同様に改善する一方で、後になるとノイズ・サンプルが遅れをとる。
この動態に動機づけられて、著者らはオンライン・ラベル改良（Online Label Refinement; OLR）を提案する。これは、ロールアウトの通過率の推移および過去の一貫性条件が満たされる場合に、多数決投票された解答を用いて疑わしいノイズ付きラベルを段階的に修正する。
ノイズ比率0.1〜0.9の複数の数学・一般推論ベンチマークにおいて、OLRは頑健性を改善し、インディストリビューションで平均約3.6〜3.9%、アウト・オブ・ディストリビューションで平均約3.3〜4.6%の向上が得られる。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

ノイズのある教師信号下で、LLMは頑健に推論を学習できるのか？

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透