PerMix-RLVR: 検証可能な報酬整合（Verifiable-Reward Alignment）下でパーソナの表現力を維持する

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はLLMに対するパーソナ・プロンプティングを扱い、有効なパーソナの選択にはコストがかかること、また出力品質へのパーソナ効果が十分に理解されていない点を指摘する。
検証可能な報酬による強化学習（RLVR）を用いると、パーソナ・プロンプトへの感度が低下することを見出すが、トレードオフも生じる。すなわち、整合／頑健性を強めるほど、忠実なパーソナ採用が必要なときに、役柄らしさ（in-character）の表現力が低下しうる。
この頑健性と忠実性のトレードオフを緩和するため、著者らはPerMix-RLVRを提案する。これはRLVR学習中にパーソナを混合することで、有害なパーソナ変動に対してもモデルが安定したままでありつつ、要求されたパーソナにも一致し続けるようにする。
実験結果では、MATH500においてRLVRよりもパーソナ安定性スコア（PSS）が+21.2%向上し、さらにPersonaGymではパーソナ忠実度が+11.4%改善したと報告している。