多様な報酬から報酬強化ポリシー最適化で説得的なLLMを教える:整合性のためのアラインメント
arXiv cs.CL / 2026/4/30
📰 ニュースIdeas & Deep AnalysisIndustry & Market MovesModels & Research
要点
- 本論文は、オンライン旅行代理店(OTA)において価格交渉を行うビジネス開発(BD)エージェントとしてLLMを「説得力」と「安全性」を両立させるための強化学習ポストトレーニング手法として、Reward-Enhanced Policy Optimization(REPO)を提案している。
- REPOは、報酬モデル(選好に基づき学習したRM)、微妙な振る舞いを評価するLLM-as-a-judge(RJ)、および数値・フォーマット・ガードレールなどを決定論的に検査するルールベース報酬(主に正規表現)という、多様な報酬信号を組み合わせている。
- 人手による専門家評価(実会話と失敗ケースのキュレーションを含む)では、REPOが対話品質を向上させ、特に「少なくとも1つは卓越した応答」を含む会話割合を大きく引き上げる結果となった。
- 本番環境でのA/Bテスト(実顧客会話9,653件)でも、REPOは意図駆動型ダイアログシステムに比べて応答率とタスク成功率の両方を統計的に有意に改善した。

