REAL: LLMを審判として用いる回帰を意識した強化学習
arXiv cs.LG / 2026/3/19
📰 ニュースModels & Research
要点
- REALは、LLM評価のための回帰を意識した強化学習フレームワークを提案し、二値信号の代わりに回帰ベースの報酬を最適化する。
- 回帰目的のポリシー依存性に対処するため、一般化されたポリシー勾配推定量を用い、最適化をChain-of-Thought軌跡に基づく探索と回帰に配慮したスコアの洗練化へ分解する。
- モデル規模が8Bから32Bにわたる実験結果は、REALが回帰対応型SFTベースラインと標準のRL手法を一貫して上回ることを示し、Qwen3-32Bで特に顕著な改善を記録した(Pearson +8.40、Spearman +7.20)。
- 本研究の知見は、ドメイン外ベンチマークへの一般化性能の向上を強調し、より正確なLLM評価のために回帰目的をRL探索に組み込む価値を示している。



