PerMix-RLVR: 検証可能な報酬整合(Verifiable-Reward Alignment)下でパーソナの表現力を維持する
arXiv cs.CL / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はLLMに対するパーソナ・プロンプティングを扱い、有効なパーソナの選択にはコストがかかること、また出力品質へのパーソナ効果が十分に理解されていない点を指摘する。
- 検証可能な報酬による強化学習(RLVR)を用いると、パーソナ・プロンプトへの感度が低下することを見出すが、トレードオフも生じる。すなわち、整合/頑健性を強めるほど、忠実なパーソナ採用が必要なときに、役柄らしさ(in-character)の表現力が低下しうる。
- この頑健性と忠実性のトレードオフを緩和するため、著者らはPerMix-RLVRを提案する。これはRLVR学習中にパーソナを混合することで、有害なパーソナ変動に対してもモデルが安定したままでありつつ、要求されたパーソナにも一致し続けるようにする。
- 実験結果では、MATH500においてRLVRよりもパーソナ安定性スコア(PSS)が+21.2%向上し、さらにPersonaGymではパーソナ忠実度が+11.4%改善したと報告している。




