マルチターン会話でのLost in Conversation(LiC)を、検証可能な精度報酬と棄権報酬を用いるカリキュラム強化学習で緩和する

arXiv cs.CL / 2026/5/1

💬 オピニオンModels & Research

要点

  • 本論文は、マルチターン環境で情報が段階的に開示される際にLLMの性能が低下する「Lost in Conversation(LiC)」を扱います。
  • 提案手法RLAAR(Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards)は、モデルに正しい回答を出すだけでなく、その質問が解けるかどうかを判断させる強化学習フレームワークです。
  • RLAARは、会話の難易度(指示シャードの観点)を段階的に上げるcompetence-gatedカリキュラムを用い、学習を安定化しつつ信頼性を高めます。
  • マルチターンのon-policyロールアウトと混合報酬により、早すぎる回答がLiCを引き起こす要因となるため、解答と「情報に基づく棄権」のバランスを学習します。
  • LiCベンチマークで、LiC性能が62.6%から75.1%に改善し、校正された棄権率も33.5%から73.4%へ向上するなど、より信頼できるマルチターン挙動が示されています。