検証可能なリワードを用いた強化学習によって、LLMに交渉を教える
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検証可能なリワードからの強化学習(RLVR)が、双方向の価格交渉のような不完全情報の状況において、LLMベースのエージェントに交渉を学習させることができるかを調査する。
- 実世界の多様な製品群にわたって、中規模の買い手エージェントが規制された売り手LLMと交渉する学習フレームワークを提示する。報酬は、経済的余剰の最大化に基づき、さらに私的な予算制約を強制する形で与えられる。
- 著者らは、学習中の4段階の戦略的な進化を報告している。未熟な交渉から始まり、攻撃的な最初の提示(オープニング・ビッド)へ進み、行き詰まりの挙動を経て、最後には高度な説得戦術へ到達する。
- 結果として、訓練された約30Bの買い手エージェントは、(サイズ比較で)自分よりはるかに大きいフロンティア・モデルよりも余剰の抽出で大きく上回ることが示されている(「自分の10倍以上のサイズのモデルを上回る」と説明されている)。さらに、より強力で、これまで見たことのない対戦相手へも汎化できることがわかり、敵対的な売り手のパーソナも含まれる。
- 本研究は、検証可能なリワード設計によって、標準的なプロンプトや非検証型の学習では得られない形で、LLMの交渉能力と頑健性を有意に向上できる可能性を示唆する。




