モデルは監督(supervision)へどれくらい速くコミットすべきか?Tsallis損失連続体で推論モデルを学習する
arXiv cs.LG / 2026/4/29
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、初期の成功確率が小さい場合に推論モデルが出力レベルのみの監督や検証可能報酬に基づく強化学習(RLVR)で停滞しやすいこと、特にRLの「搾取(exploitation)極」で顕著になることを示します。
- Tsallisのq対数に基づく損失族(J_Q)を提案し、RLVR(q=0)から潜在軌跡上の対数マージナル尤度(q=1)までを連続的に補間できる枠組みを示し、その主な作用はインスタンスごとの再重み付け/増幅係数 P_{θ^{-q}} によって制御されると述べています。
- 勾配フローの解析では、搾取極はコールドスタートから抜けるのに Ω(1/p0) の時間が必要である一方、密度推定極は Θ(log(1/p0)) で抜けることができ、中間のqは「抜ける速さ」と「ノイズの記憶(memorization)」のトレードオフになると説明しています。
- P_θ が計算困難であるため、モンテカルロに基づく2つの学習法(Gradient-Amplified RL: GARL と Posterior-Attenuated Fine-Tuning: PAFT)を導出し、それぞれが異なるバイアス/分散特性と意味的に整合した勾配の性質を持つことを示します。
- FinQA、HotPotQA、MuSiQueでの実験では、q=0.75 のGARLがコールドスタートでの停滞を大きく緩和し、GRPOでは脱出できないケースで脱出に成功します。一方ウォームスタートではGARLが学習を不安定化しうるため、HotPotQAでは q=0.75 のPAFT が全体最良(47.9 maj@16、GRPOに対し+14.4)という結果を示します。



