自己蒸留によるRLVR(Self-Distilled RLVR)

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMに対するオンポリシー蒸留(OPD)とRLVRを対比し、蒸留は軌跡(トラジェクトリ)レベルの密な学習信号を提供するのに対して、RLVRは疎で検証可能な報酬信号を提供すると述べている。
  • 先行研究のオンポリシー自己蒸留(OPSD)では、同一モデルが教師・学生として振る舞い、特権情報を用いるが、この手法は深刻な情報漏えいを引き起こし、さらに特権教師由来の信号だけに基づくため長期的な学習が不安定になり得ると論じている。
  • これらの問題に対処するため、著者らはRLSD(RLVR with Self-Distillation)を提案する。これは自己蒸留を主に、トークンレベルのポリシー差分信号を生成する目的で用い、微細な更新の大きさ(更新量)を決める。
  • RLSDは依然として、(応答の正しさなどの)RLVR型の環境フィードバックを用いて信頼できる更新方向を判断する。これにより、RLVRの安定性と、自己蒸留によるより豊かな学習信号を組み合わせる。
  • 本論文は、このハイブリッド手法が、特権教師信号に過度に依存するアプローチと比べて、収束の上限(convergence ceiling)と学習安定性の両方を改善することを報告している。