要旨: ルーブリック報酬を用いた強化学習(RLRR)は、人間のフィードバック(RLHF)および検証可能な報酬(RLVR)から従来の強化学習を拡張する枠組みであり、スカラーな好み信号を構造化された多次元的で文脈に基づくルーブリック評価へ置き換えます。しかし、RLRR における既存のアプローチは、ベクトル報酬を固定された重み付けで線形にスカラー報酬へ圧縮することに限定されており、人工的なスコア設計に敏感で、報酬次元間の相関を捉えられません。報酬の集合化の限界を克服するため、本研究は Alternating Reinforcement Learning with Rubric Rewards (ARL-RR) を提案します。これは、一度に1つの意味論的ルーブリックのメタクラスを最適化することによって、固定されたスカラー化の必要性を排除する枠組みです。理論的には、報酬の集合化は分散の収縮効果を生じさせ、これが性能向上を説明するのに役立つことを示します。さらに、タスクのパフォーマンスに基づいて次のメタクラスを動的に選択する軽量で探索ベースの適応手順を導入し、ポリシーが重要な目的を強調できるようにして、モデルの性能を向上させます。実証的には、専門家の注釈を付けた HealthBench データセットでの実験により、ARL-RR は、スカラー化手法をモデル性能とトレーニング効率の両方において一様に上回ることを、異なるモデル規模(1.7B、4B、8B、14B)にわたって示しています。
文脈ベースのルーブリック報酬を用いた交互強化学習
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Alternating Reinforcement Learning with Rubric Rewards (ARL-RR)を提案し、スカラー報酬を多次元のルーブリックベースの評価に置換して、RLタスクにおける客観的相関をより適切に捉える。
- ARL-RRは、一度に1つのセマンティックなルーブリックのメタクラスを最適化することで固定的なスカラー化を回避し、タスクのパフォーマンスに基づいて次のメタクラスを動的に選択する、軽量で探索ベースの適応手順を用いる。
- 著者らは、従来の報酬の集約が分散の収縮を引き起こす可能性があることを示す理論的洞察を提供し、交互的ルーブリック手法が観測された性能向上を説明するのに役立つことを示している。
- HealthBenchデータセット(専門家によるアノテーション)での経験的結果は、ARL-RRがモデルサイズ(1.7B、4B、8B、14B)の全てでスカラー化手法を一様に上回り、モデル性能とトレーニング効率の両方で優れていることを示している。


