要旨: スパースな打ち切り報酬(sparse termination rewards)において、強化学習によって推論モデルを微調整する際、同一グループ内での比較(intra-group comparisons)が支配的なパラダイムとなっています。しかし、長期の学習は、無効な更新の蓄積(learning tax)、解の確率のドリフト(solution probability drift)、エントロピー崩壊(entropy collapse)といった問題を引き起こしがちです。本論文では、トークン単位のクレジット割り当て(token-level credit assignment)の観点から、アルゴリズム設計のための必要条件を提示します。報酬と無関係なドリフトを防ぐために、同一グループ内の目的関数は、トークン更新間で勾配の交換可能性(gradient exchangeability)を維持しなければなりません。これにより、弱いクレジットを持つ/高頻度のトークンに対して勾配の相殺(gradient cancellation)が可能になります。我々は、交換可能性を損なう2つの一般的なメカニズムが、「相殺されないこと(non-cancellation)」を構造的な規範にしてしまうことを示します。これに基づき、共有されたトークン空間において相殺構造を回復、または近似するための最小限の同一グループ内変換(minimal intra-group transformations)を提案します。実験結果は、これらの変換が学習を安定化させ、サンプル効率を改善し、最終的な性能を高めることを示しており、この設計条件の価値を裏付けています。
シーケンスレベル報酬のグループ内学習に対する設計条件:トークングラディエントの打ち消し
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論モデルのグループ内RLファインチューニングにおける疎な終端報酬が、学習上の税、解(解側)の確率ドリフト、エントロピー崩壊を通じて、長いホライズンの学習をどのように劣化させ得るかを研究する。
- トークン単位のクレジット割当て(信用配分)のための設計条件を導出し、グループ内目的関数がトークン更新間で勾配の交換可能性(gradient exchangeability)を保持することを要求する。これにより、弱いクレジット/高頻度トークンに対しても有効な勾配の打ち消しが起こる。
- 著者らは、広く用いられている2つのメカニズムがこの交換可能性を破壊し、典型的な学習設定では非打ち消しが構造的な帰結になると主張する。
- 彼らは、共有トークン空間において打ち消しの構造を回復、あるいは近似するための、最小限のグループ内目的関数変換を提案する。
- 実験結果は、これらの変換が学習ダイナミクスを安定化し、サンプル効率を向上させ、最終的なモデル性能を高めることを示しており、提案する設計原理を支持する。