C2：二値嗜好からのスケーラブルなルーブリック拡張報酬モデリング

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ルーブリック拡張報酬モデリングにおけるスケーラビリティのボトルネックを扱っており、既存手法は検証精度を高めるために高コストな人手によるルーブリック注釈に依存している。
ルーブリック生成は非協調的な振る舞いによって失敗し得ることを見出し、高品質でないルーブリックが判断を改善するのではなく、報酬モデルを積極的に誤誘導する。
提案する「Cooperative yet Critical（協調的だが批判的）」(C2) フレームワークでは、二値嗜好データのみを用いてルーブリック生成器を学習し、さらに対照的な「有益 vs 誤誘導」ルーブリック対を用いて、どのルーブリックを信頼すべきかを学習する。
推論時には、クリティカルな検証器がルーブリックをフィルタし、報酬モデルが「有益」とみなされたものにのみ従うようにすることで、外部のルーブリック注釈なしに信頼性を向上させる。
実験では、RM-Benchで最大6.5点の改善、AlpacaEval 2.0で長さを制御した勝率において最大6.0点の改善を報告しており、8Bの報酬モデルが、ルーブリック強化の4倍規模のモデルと同等の性能に到達する。

Abstract

領域（ルーブリック）を拡張した検証は、報酬モデルに対して明示的な評価基準を与え、単一モデルによる検証よりも信頼性の高い判断を実現します。しかし、既存の多くの手法ではコストのかかるルーブリック注釈が必要であり、スケーラビリティが制限されています。さらに我々は、ルーブリック生成が協調の失敗に対して脆弱であることを見出しました。すなわち、低品質なルーブリックは報酬モデルを「助ける」というより、能動的に誤らせます。協調的なコミュニケーションの原理に触発されて、我々は協調的かつ批判的な報酬モデリング（C2）を提案します。これは、二値の嗜好のみから学習したルーブリック生成器と、報酬モデルが批判的に協働することで、報酬モデルの判断を大幅に改善する枠組みです。C2では、各ルーブリックが正しい嗜好に向かって報酬モデルをどれだけ近づける／遠ざけるかを測定することで、有益なルーブリック対と誤導的なルーブリック対を合成します。これらの対照（コントラスティブ）ペアを用いて、協調的なルーブリック生成器を訓練し、有益なルーブリックを提案させます。そして、判断を行う前にルーブリックの妥当性を評価する批判的検証器を訓練し、推論時には「有益だと見なした」ルーブリックのみを用いるようにします。C2は、同じ二値の嗜好で訓練された推論型報酬モデルを上回り、RM-Benchで最大6.5ポイント、AlpacaEval 2.0で長さ制御された勝率において6.0ポイントの改善を達成します。外部のルーブリック注釈なしで、C2は8Bの報酬モデルが、4