分布整合型ヒント合成と逆方向ヒントアニーリングによる数理RLVRにおける分布シャープニングの緩和

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、数理RLVRにおける主要な失敗モード、すなわちヒントに基づく学習が「解の分布をシャープ化」し、難問に対するカバレッジを狭めることで、大-$k$ 性能を損なう問題に取り組む。
  • 教師と学生の分布ミスマッチを低減するため、学生の応答スタイルに条件付けして、検証済みの教師ヒントを生成する Distribution-Aligned Hint Synthesis(DAHS)を提案する。
  • さらに、Backwards Hint Annealing(BHA)として、難易度バケットごとにヒントへの露出を段階的に減らし、質問ごとのヒントドロップアウトを適用することで、RL学習の間ずっと「ヒントなし」更新が利用可能な状態を維持する仕組みを導入する。
  • DAPO RLVRフレームワークのもとで、Qwen3-1.7B-BaseおよびLlama-3.2-1B-Instructを用いたAIME24/25/26での実験により、Qwenではpass@1およびpass@2048が改善し、Llamaでは改善が主に大-$k$ 設定で見られる。
  • これらの結果は、ヒントを用いた効果的な数理RLVRには、難問での学習を可能にするための初期の足場かけが必要であり、その後は、ヒントなし条件での評価の前に体系的にヒントを減らすことが重要であることを示唆している。

Abstract

検証可能な報酬による強化学習(RLVR)は、困難な数学問題において解答範囲を狭めつつ低-k の推論精度を向上させることができ、また pass@1 の改善が必ずしも大-k 性能の向上に直結するわけではありません。既存のヒントベース手法は、困難な問題を訓練可能にできるものの、未検討のまま残っている課題が2つあります。すなわち、教師—生徒の分布不一致と、ヒント露出を抑制してヒントなし評価に合わせる必要性です。私たちはこれらの課題に対して2つの構成要素で対応します。分布整合ヒント合成(DAHS)は、生徒のスタイルに基づく応答に条件付けて、検証された教師ヒントを構築します。後方ヒントアニーリング(BHA)は、難易度バケット間でヒント露出をアニーリングし、RL訓練の間ずっとヒントなしの更新を維持するために、問題ごとのヒントドロップアウトを用います。私たちは、 exttt{Qwen3-1.7B-Base} exttt{Llama-3.2-1B-Instruct} を用い、DAPO訓練フレームワークのもとで、AIME24、AIME25、AIME26 における数学RLVRでこの手法を評価します。 exttt{Qwen3-1.7B-Base} では、3つのAIMEベンチマークすべてにわたって、私たちの手法は DAPO と比べて pass@1 と pass@2048 の両方を改善します。 exttt{Llama-3.2-1B-Instruct} では、改善は大-k 領域に集中しています。これらの結果は、数学RLVRにおいて、ヒントによる足場(scaffolding)は、訓練初期に困難な問題で学習可能な更新を復元するときに有効であり、その後はヒントなし評価の前に徐々に取り除かれるべきであることを示唆しています。