トレードオフなしで長さのインフレーションに対処する:強化学習におけるグループ相対報酬リスケーリング

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長さのインフレーションをLLMの強化学習における重要な課題として特定します。報酬を最大化するために、モデルが冗長または非効率的な推論を生成します。
  • それは、グループ相対報酬リスケーリング(GR^3)を導入します。長さ制御への乗法的アプローチで、加法的ペナルティやヒューリスティックゲーティングに関連する問題を回避します。
  • GR^3は、グループ相対正則化とアドバンテージ意識のキャリブレーションを用い、インスタンスの難易度に基づいて長さの予算を適応させつつ、高品質な軌跡の価値を保持します。
  • 実証的には、RLHFおよびRLVR設定の両方で、GR^3は標準のGRPOと同等のトレーニングダイナミクスと下流性能を維持しつつ、長さのインフレーションを大幅に削減し、最先端の長さ正則化ベースラインを上回ります。
本文: arXiv:2603.10535v1 アナウンス種別: 新規 要旨: 強化学習はLLMの能力を大幅に向上させる一方で、長さのインフレーションという重大な問題に悩まされます。これは、報酬を最大化するために冗長な表現や非効率的な推論を採用する現象です。従来のアプローチは、この課題を一般的かつロスレスに解決するのが難しく、主に加法的ペナルティが補償効果を生み出して最適化のショートカットを作ってしまうこと、またヒューリスティックゲーティング戦略が二値のフィードバックを超える一般性を欠くことが原因です。 このギャップを埋めるために、グループ相対報酬リスケーリング(GR$^3$)を提案します。長さの制御を乗法的リスケーリングのパラダイムとして再定義し、一般化された、連続的で報酬依存のゲーティング機構を効果的に確立します。さらにロスレスな最適化を保証するために、グループ相対正則化とアドバンテージ意識のキャリブレーションを組み込み、インスタンスの難易度に応じて長さの予算を動的に適応させ、高品質な軌跡のアドバンテージ信号を保持します。 実証的には、RLHFおよびRLVR設定の両方で、GR$^3$は標準のGRPOと同等のトレーニングダイナミクスと下流パフォーマンスを維持しつつ、長さのインフレーションを大幅に緩和し、最先端の長さ正則化ベースラインを上回ります。