Rubrics to Tokens：指示追従タスクにおける応答レベルのルーブリックとトークンレベルの報酬をつなぐ

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープンドメインの指示追従タスクにおけるLLMの整合性（アライメント）を改善することを目的とした、ルーブリックベースの強化学習フレームワーク「Rubrics to Tokens（RTT）」を提案する。
応答レベルの粗い報酬から、Token-Level Relevance Discriminatorを用いた、より細かなトークンレベルのクレジット割り当てへと移行することで、報酬の疎性および曖昧性を扱う。
RTT-GRPOは、方策モデルの単一の最適化フレームワークの中で、応答レベルとトークンレベルの優位性を統合することを提案する。
著者らは、1次元の結果報酬から3次元のトークンレベルのルーブリック報酬空間への移行に対応するため、「Intra-sample Token Group Normalization」を提案する。
実験とベンチマークの結果から、RTTは複数のモデルにわたって、既存のベースラインよりも指示レベルおよびルーブリックレベルの精度が高いことが示される。