発話を超えて:強化学習による音声大規模言語モデルでの役割(ロールプレイング)評価活用
arXiv cs.LG / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声大規模言語モデルを用いて、ロールプレイングエージェントが発話および他のモダリティ全体でどの程度キャラクター特性に整合しているかを評価する評価フレームワーク「RoleJudge」を提案する。
- 「RoleChat」として、実際の音声とLLM生成の音声に加え、思考過程(chain-of-thought)の推論アノテーションを含む音声ロールプレイング評価データセットを導入する。
- 著者らは多段階の学習アプローチを適用し、ロールプレイング行動の最適化中に報酬の不整合(reward misalignment)を減らすために、強化学習と「Standard Alignment」を用いる。
- 実験では、ベースラインモデルと比べて精度が向上し、主観評価でも良好であることが報告されており、音声LLMによるロールプレイに対する多次元のキャラクター評価の価値が裏付けられる。
- 本研究は、キャラクター整合性における重要な課題、すなわち声に伴う準言語的(パラ言語)手がかりは定量化が難しく、従来のテキストのみの評価ではそれを捉えられない点に焦点を当てる。
