REAL: LLMを審判として用いる回帰を意識した強化学習

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

要点

  • REALは、LLM評価のための回帰を意識した強化学習フレームワークを提案し、二値信号の代わりに回帰ベースの報酬を最適化する。
  • 回帰目的のポリシー依存性に対処するため、一般化されたポリシー勾配推定量を用い、最適化をChain-of-Thought軌跡に基づく探索と回帰に配慮したスコアの洗練化へ分解する。
  • モデル規模が8Bから32Bにわたる実験結果は、REALが回帰対応型SFTベースラインと標準のRL手法を一貫して上回ることを示し、Qwen3-32Bで特に顕著な改善を記録した(Pearson +8.40、Spearman +7.20)。
  • 本研究の知見は、ドメイン外ベンチマークへの一般化性能の向上を強調し、より正確なLLM評価のために回帰目的をRL探索に組み込む価値を示している。