隠れ状態は推論の分岐点を知っている:スパン単位のワッサースタイン距離によるクレジット割当

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強い検証可能報酬(RLVR)を用いる強化学習におけるクレジット割当を、トークン一律の利得付与からさらに細粒度に改善するために、Span-level Hidden state Enabled Advantage Reweighting(SHEAR)を提案します。
  • 正誤ロールアウト間の隠れ状態分布は、局所的な推論品質が異なるスパン付近で分岐し、その分岐をスパン単位の隠れ状態分布間のワッサースタイン距離で捉えられると主張しています。
  • 著者らは分離定理により、この関係を形式化し、分布ギャップが有限サンプルのノイズより十分大きい場合には、分岐後のスパンほどワッサースタイン距離が大きくなることを示しています。
  • SHEARは、到達結果の正誤ラベルのみ(ステップ単位のアノテーションや追加の報酬モデル学習は不要)で、スパン単位のワッサースタイン距離を計算してトークン単位の利得をスケールします。
  • 数学的推論の5ベンチマークとコード生成の5ベンチマークで、標準的なGRPOを上回り、追加データや追加モデリングなしで、プロセス報酬モデルを用いた教師あり手法に対しても競争力のある性能を示しました。

\textbf{S}pan-level \textbf{H}idden state \textbf{E}nabled \textbf{A}dvantage \textbf{R}eweighting(SHEAR)を提案します。SHEARは、スパンレベルのワッサースタイン距離を用いてトークンレベルのアドバンテージをスケールすることでGRPOを変更し、反対側のグループから隠れ状態がより分離しているトークンへの更新を増幅します。この手法は追加のモデルを必要とせず、学習パイプラインへの変更も最小限で済みます。5つの数学的推論ベンチマークおよび5つのコード生成ベンチマークでの実験では、標準的なGRPOに比べて改善が見られ、かつ教師ありのプロセス報酬モデルに対しても強い性能を示しました。さらに、追加の注釈や報酬モデルの学習を必要としません。