REAL: LLMを審判として用いる回帰を意識した強化学習

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

共有:

要点

REALは、LLM評価のための回帰を意識した強化学習フレームワークを提案し、二値信号の代わりに回帰ベースの報酬を最適化する。
回帰目的のポリシー依存性に対処するため、一般化されたポリシー勾配推定量を用い、最適化をChain-of-Thought軌跡に基づく探索と回帰に配慮したスコアの洗練化へ分解する。
モデル規模が8Bから32Bにわたる実験結果は、REALが回帰対応型SFTベースラインと標準のRL手法を一貫して上回ることを示し、Qwen3-32Bで特に顕著な改善を記録した（Pearson +8.40、Spearman +7.20）。
本研究の知見は、ドメイン外ベンチマークへの一般化性能の向上を強調し、より正確なLLM評価のために回帰目的をRL探索に組み込む価値を示している。

Qiita

note

note

note

note