Abstract
領域(ルーブリック)を拡張した検証は、報酬モデルに対して明示的な評価基準を与え、単一モデルによる検証よりも信頼性の高い判断を実現します。しかし、既存の多くの手法ではコストのかかるルーブリック注釈が必要であり、スケーラビリティが制限されています。さらに我々は、ルーブリック生成が協調の失敗に対して脆弱であることを見出しました。すなわち、低品質なルーブリックは報酬モデルを「助ける」というより、能動的に誤らせます。協調的なコミュニケーションの原理に触発されて、我々は協調的かつ批判的な報酬モデリング(C2)を提案します。これは、二値の嗜好のみから学習したルーブリック生成器と、報酬モデルが批判的に協働することで、報酬モデルの判断を大幅に改善する枠組みです。C2では、各ルーブリックが正しい嗜好に向かって報酬モデルをどれだけ近づける/遠ざけるかを測定することで、有益なルーブリック対と誤導的なルーブリック対を合成します。これらの対照(コントラスティブ)ペアを用いて、協調的なルーブリック生成器を訓練し、有益なルーブリックを提案させます。そして、判断を行う前にルーブリックの妥当性を評価する批判的検証器を訓練し、推論時には「有益だと見なした」ルーブリックのみを用いるようにします。C2は、同じ二値の嗜好で訓練された推論型報酬モデルを上回り、RM-Benchで最大6.5ポイント、AlpacaEval 2.0で長さ制御された勝率において6.0ポイントの改善を達成します。外部のルーブリック注釈なしで、C2は8Bの報酬モデルが、4 imes大きいモデルから得られるルーブリックで達成された性能に一致することを可能にします。全体として本研究は、ルーブリック拡張型検証において意図的な協調を引き出すことで、報酬モデルをスケーラブルな方法でより信頼できるものにすることを示しています。