長鎖の数学的推論のためのオフライン探索対応ファインチューニング

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Offline eXploration-Aware (OXA) ファインチューニングを提案し、RLVR中の探索を意識した監督付きファインチューニングによって、長鎖の数学的推論を強化する。
  • OXAは二つの目的を最適化する。低信頼度の検証済み教師蒸留データを促進して、これまで取りこぼされていた推論パターンを内部化すること、そして高信頼度の誤った自己蒸留データを抑制して、確率質量を潜在的に正しい候補へ再配分すること。
  • 6つのベンチマークで一貫した改善を示し、Qwen2.5-1.5B-Math モデルでは平均+6 Pass@1、+5 Pass@kの向上を達成した。
  • OXAは初期方針エントロピーを高め、長期にわたるRLVR訓練を通じてその利得が持続することを示しており、耐久性のある利点を示唆している。
  • 本アプローチは、SFT初期化と探索意識型のRLVRを結びつけ、大規模言語モデルにおけるより強力な数学的推論を実現する実用的な道を提供する。

要旨: 自己探索を促進することを通じて、検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの数学的推論能力を大きく前進させてきた。RLVRの出発点として、教師ありファインチューニング(SFT)が新しい思考過程の軌跡を記憶する能力は、以降の探索の展開を形作る重要な初期化を提供する。しかし、既存の研究は主に RLVR 訓練中の探索を促進することに焦点を当てており、探索を意識した SFT は十分に探究されていない。このギャップを埋めるべく、Offline eXploration-Aware(OXA)ファインチューニングを提案する。具体的には、OXAは2つの目的を最適化する。低信頼度の検証済み教師蒸留データを内部化して、これまで取りこぼされていた推論パターンを学習させること、そして高信頼度の不正確な自己蒸留データを抑制し、誤ったパターンの確率質量を潜在的に正しい候補へ再分配すること。6つのベンチマークにわたる実験結果は、OXAが一貫して数学的推論能力を向上させることを示しており、特に Qwen2.5-1.5B-Math における従来のSFTと比較して、平均で +6 Pass@1 および +5 Pass@k ポイントの向上を達成している。重要な点として、OXAは初期ポリシーエントロピーを高め、長期にわたる RLVR 訓練を通じて性能向上が持続することを示しており、OXAの長期的価値を示している。