PAINT:自己蒸留型リゾナー向けの部分解適応型補間学習(Partial-Solution Adaptive Interpolated Training)

arXiv cs.LG / 2026/4/30

📰 ニュースModels & Research

要点

  • この論文は、LLMの推論を改善するために、モデルのテスト時の状態に整合しつつトークンレベルの学習信号を与える教師付け手法としてPAINT(Partial-solution Adaptive Interpolated Training)を提案する。
  • PAINTは、特権付きオンポリシー自己蒸留を文脈再スコアリングとして捉え直し、「検証済みの解答文脈をどれだけ開示するか」や「その文脈の分布が学習者(student)にどう影響するか」に焦点を当てる。
  • 具体的には、ロールアウトと参照の重なりに基づいて検証済みの解答をマスクし、エントロピー不一致が起きる少数のトークン位置でエネルギー空間の補間を行う。
  • 競技レベルの数学ベンチマークでの実験では、PAINTが3つのQwen3スケールすべてにおいて強力なオンポリシー自己蒸留ベースラインより一貫して改善することを示す。
  • Qwen3-8Bでは、Macro Avg@12がベースライン比で+2.1点、GRPO比で+2.9点向上した。

Abstract

大規模言語モデル(LLM)の推論を改善するには、モデルのテスト時の状態に整合していることに加え、トークン単位で有益であるという、両方の性質を満たす監督が必要です。検証可能な報酬による強化学習はオンポリシー探索を可能にしますが、報酬が疎で高分散なためクレジット割当が難しくなります。一方で、教師あり微調整や蒸留は密なターゲットを提供しますが、多くの場合、固定された軌跡で学習するか、より強力な教師に依存します。近年の特権付きオンポリシー自己蒸留では、検証済みの解決策の文脈のもとで、同一モデルによって生徒のロールアウトをスコアリングすることで、その中間的な立場を探っています。私たちは、この設定を文脈に基づく再スコアリングという観点から再検討します。推論において重要なのは、特権的な文脈が利用可能かどうかだけでなく、それをどれだけ開示すべきか、またその文脈の分布が生徒にどこまでどのように形作るべきか、という点です。私たちはPAINT(Partial-solution Adaptive INterpolated Training)を提案します。PAINTは、ロールアウト参照との重なりに応じて検証済みの解決策をマスクし、さらに、エントロピーミスマッチとなるトークン位置の疎な集合に対して、エネルギー空間上で小さな補間を適用します。競技レベルの数学ベンチマークにおいて、PAINTは、3つのQwen3スケールすべてで、強力なオンポリシー自己蒸留ベースラインに対して一貫して改善します。Qwen3-8Bでは、この事前ベースラインに対してmacro Avg@12を2.1ポイント引き上げ、さらにGRPOに対して2.9ポイント引き上げます。