Abstract
検証可能な報酬による強化学習(RLVR)は、困難な数学問題において解答範囲を狭めつつ低-k の推論精度を向上させることができ、また pass@1 の改善が必ずしも大-k 性能の向上に直結するわけではありません。既存のヒントベース手法は、困難な問題を訓練可能にできるものの、未検討のまま残っている課題が2つあります。すなわち、教師—生徒の分布不一致と、ヒント露出を抑制してヒントなし評価に合わせる必要性です。私たちはこれらの課題に対して2つの構成要素で対応します。分布整合ヒント合成(DAHS)は、生徒のスタイルに基づく応答に条件付けて、検証された教師ヒントを構築します。後方ヒントアニーリング(BHA)は、難易度バケット間でヒント露出をアニーリングし、RL訓練の間ずっとヒントなしの更新を維持するために、問題ごとのヒントドロップアウトを用います。私たちは、 exttt{Qwen3-1.7B-Base} と exttt{Llama-3.2-1B-Instruct} を用い、DAPO訓練フレームワークのもとで、AIME24、AIME25、AIME26 における数学RLVRでこの手法を評価します。 exttt{Qwen3-1.7B-Base} では、3つのAIMEベンチマークすべてにわたって、私たちの手法は DAPO と比べて pass@1 と pass@2048 の両方を改善します。 exttt{Llama-3.2-1B-Instruct} では、改善は大-k 領域に集中しています。これらの結果は、数学RLVRにおいて、ヒントによる足場(scaffolding)は、訓練初期に困難な問題で学習可能な更新を復元するときに有効であり、その後はヒントなし評価の前に徐々に取り除かれるべきであることを示唆しています。