MUSE:自己進化プロファイルとルーブリック誘導アライメントによるマルチドメイン中国ユーザー・シミュレーション
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長時間の対話において人間らしく、制御可能で、かつパーソナ整合性のある応答を生成することを目的とした、マルチドメイン中国ユーザー・シミュレーションの枠組み MUSE を提案する。
- シミュレーションされたユーザープロファイルを最適化するために、シミュレートと実際の対話軌跡の間の不一致を比較することで反復的なプロファイル自己進化(IPSE)を行う。
- 応答の現実味を、ロール・リバーサル(役割反転)に基づく教師あり微調整によって改善し、さらにルーブリックに基づく報酬モデルと、ルーブリック誘導のマルチターン強化学習を組み合わせて長期的なアライメントを高める。
- 実験結果によれば、MUSE は発話レベルおよびセッションレベルの評価の両方で強力なベースラインを上回り、長い対話においてより高い現実味、一貫性、パーソナ整合性が得られると報告されている。
