PAINT:自己蒸留型リゾナー向けの部分解適応型補間学習(Partial-Solution Adaptive Interpolated Training)
arXiv cs.LG / 2026/4/30
📰 ニュースModels & Research
要点
- この論文は、LLMの推論を改善するために、モデルのテスト時の状態に整合しつつトークンレベルの学習信号を与える教師付け手法としてPAINT(Partial-solution Adaptive Interpolated Training)を提案する。
- PAINTは、特権付きオンポリシー自己蒸留を文脈再スコアリングとして捉え直し、「検証済みの解答文脈をどれだけ開示するか」や「その文脈の分布が学習者(student)にどう影響するか」に焦点を当てる。
- 具体的には、ロールアウトと参照の重なりに基づいて検証済みの解答をマスクし、エントロピー不一致が起きる少数のトークン位置でエネルギー空間の補間を行う。
- 競技レベルの数学ベンチマークでの実験では、PAINTが3つのQwen3スケールすべてにおいて強力なオンポリシー自己蒸留ベースラインより一貫して改善することを示す。
- Qwen3-8Bでは、Macro Avg@12がベースライン比で+2.1点、GRPO比で+2.9点向上した。



