Rubrics to Tokens:指示追従タスクにおける応答レベルのルーブリックとトークンレベルの報酬をつなぐ
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オープンドメインの指示追従タスクにおけるLLMの整合性(アライメント)を改善することを目的とした、ルーブリックベースの強化学習フレームワーク「Rubrics to Tokens(RTT)」を提案する。
- 応答レベルの粗い報酬から、Token-Level Relevance Discriminatorを用いた、より細かなトークンレベルのクレジット割り当てへと移行することで、報酬の疎性および曖昧性を扱う。
- RTT-GRPOは、方策モデルの単一の最適化フレームワークの中で、応答レベルとトークンレベルの優位性を統合することを提案する。
- 著者らは、1次元の結果報酬から3次元のトークンレベルのルーブリック報酬空間への移行に対応するため、「Intra-sample Token Group Normalization」を提案する。
- 実験とベンチマークの結果から、RTTは複数のモデルにわたって、既存のベースラインよりも指示レベルおよびルーブリックレベルの精度が高いことが示される。



