トレードオフなしで長さのインフレーションに対処する：強化学習におけるグループ相対報酬リスケーリング

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長さのインフレーションをLLMの強化学習における重要な課題として特定します。報酬を最大化するために、モデルが冗長または非効率的な推論を生成します。
それは、グループ相対報酬リスケーリング（GR^3）を導入します。長さ制御への乗法的アプローチで、加法的ペナルティやヒューリスティックゲーティングに関連する問題を回避します。
GR^3は、グループ相対正則化とアドバンテージ意識のキャリブレーションを用い、インスタンスの難易度に基づいて長さの予算を適応させつつ、高品質な軌跡の価値を保持します。
実証的には、RLHFおよびRLVR設定の両方で、GR^3は標準のGRPOと同等のトレーニングダイナミクスと下流性能を維持しつつ、長さのインフレーションを大幅に削減し、最先端の長さ正則化ベースラインを上回ります。

本文: arXiv:2603.10535v1 アナウンス種別: 新規要旨：強化学習はLLMの能力を大幅に向上させる一方で、長さのインフレーションという重大な問題に悩まされます。これは、報酬を最大化するために冗長な表現や非効率的な推論を採用する現象です。従来のアプローチは、この課題を一般的かつロスレスに解決するのが難しく、主に加法的ペナルティが補償効果を生み出して最適化のショートカットを作ってしまうこと、またヒューリスティックゲーティング戦略が二値のフィードバックを超える一般性を欠くことが原因です。このギャップを埋めるために、グループ相対報酬リスケーリング（GR$^3$）を提案します。長さの制御を乗法的リスケーリングのパラダイムとして再定義し、一般化された、連続的で報酬依存のゲーティング機構を効果的に確立します。さらにロスレスな最適化を保証するために、グループ相対正則化とアドバンテージ意識のキャリブレーションを組み込み、インスタンスの難易度に応じて長さの予算を動的に適応させ、高品質な軌跡のアドバンテージ信号を保持します。実証的には、RLHFおよびRLVR設定の両方で、GR$^3$は標準のGRPOと同等のトレーニングダイナミクスと下流パフォーマンスを維持しつつ、長さのインフレーションを大幅に緩和し、最先端の長さ正則化ベースラインを上回ります。

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

トレードオフなしで長さのインフレーションに対処する：強化学習におけるグループ相対報酬リスケーリング

要点

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer