数学推論におけるテスト時強化学習での「誤った信号の増幅」を理解し、緩和する

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、数学推論のためのテスト時強化学習(TTRL)が、推論時の疑似ラベリングによるラベルノイズに起因する報酬信号の「見かけの最適化」に対して脆弱になり得る理由を調査します。
  • 実験的に、整合性が中程度の応答に「曖昧領域」が存在し、これらが報酬ノイズの主な発生源であること、さらに集団相対的なアドバンテージ推定によってそうした誤った信号が増幅され得ることを示します。
  • そこで著者らは、DDRL(Debiased and Denoised test-time Reinforcement Learning)という統一フレームワークを提案し、周波数ベースのサンプリングで曖昧なサンプルを除外しつつ、陽性・陰性の例をバランスよく維持します。
  • 続いて、固定アドバンテージによる非バイアスなアドバンテージ推定を用い、集団相対的な方策最適化が導入するバイアスを取り除きます。
  • さらに、拒否サンプリングしたデータを活用したコンセンサスベースのオフポリシー改良段階を加え、より安定したモデル更新を可能にします。
  • 3つの大規模言語モデルと複数の数学推論ベンチマークでの実験では、DDRLが既存のTTRLベースラインを一貫して上回り、コードは近日公開予定です。

要旨: テスト時強化学習(TTRL)は常に、疑似ラベリングを通じて推論時にモデルを適応させるため、ラベルノイズによる紛らわしい(スパリアスな)最適化シグナルに対して脆弱です。経験的な研究を通じて、適度な一貫性をもつ応答が曖昧性領域を形成し、報酬ノイズの主要な発生源であることを観察します。さらに重要な点として、こうした紛らわしいシグナルは、集団相対的な優位性推定によって増幅され得ることを見出します。これらの知見に動機づけられ、本研究では、紛らわしいシグナルを緩和するための統一的な枠組み、Debiased and Denoised test-time Reinforcement Learning(DDRL)を提案します。具体的には、DDRLはまず、曖昧なサンプルを除外しつつ、肯定例と否定例のバランスを保つために、周波数ベースのサンプリング戦略を適用します。次に、集団相対的な方策最適化によって導入されるバイアスを取り除くため、固定された優位性を用いたディバイアス(バイアス補正)された優位性推定を採用します。最後に、DDRLはコンセンサスに基づくオフポリシーの改良(リファインメント)段階を組み込み、リジェクション・サンプリングされたデータセットを活用して、効率的かつ安定したモデル更新を可能にします。複数の数学的推論ベンチマークにまたがる3つの大規模言語モデルでの実験により、DDRLが既存のTTRLベースラインを一貫して上回ることを示します。コードはまもなく https://github.com/yuyongcan/DDRL で公開されます。