AI Navigate

メモリ駆動型ロールプレイ:LLMsにおけるペルソナ知識の活用の評価と強化

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、長時間のオープンエンド対話において忠実で一貫したペルソナの特徴付けを維持する課題を指摘し、対話文脈から取得される内部記憶としてペルソナ知識を扱う Memory-Driven Role-Playing(MRP)を提案する。
  • 本研究は、MREval、MRPrompt、および MRBench(中国語と英語のバイリンガルベンチマーク)を導入し、四つの記憶駆動能力(アンカリング、想起、境界づけ、演じること)を診断・強化する。
  • 実験結果は、MRPrompt が小型モデル(例:Qwen3-8B)を大規模なクローズドソースLLMs(例:Qwen3-Max、GLM-4.7)と同等の性能に引き上げることを示し、メモリ重視の prompting が効率を高め得ることを実証している。
  • 上流のメモリ獲得が下流の応答品質を改善することを強調し、12のLLMにわたる総合的な診断スイートを提供する。

Abstract

A core challenge for faithful LLM role-playing is sustaining consistent characterization throughout long, open-ended dialogues, as models frequently fail to recall and accurately apply their designated persona knowledge without explicit cues. To tackle this, we propose the Memory-Driven Role-Playing paradigm. Inspired by Stanislavski's "emotional memory" acting theory, this paradigm frames persona knowledge as the LLM's internal memory store, requiring retrieval and application based solely on dialogue context, thereby providing a rigorous test of depth and autonomous use of knowledge. Centered on this paradigm, we contribute: (1) MREval, a fine-grained evaluation framework assessing four memory-driven abilities - Anchoring, Recalling, Bounding, and Enacting; (2) MRPrompt, a prompting architecture that guides structured memory retrieval and response generation; and (3) MRBench, a bilingual (Chinese/English) benchmark for fine-grained diagnosis. The novel paradigm provides a comprehensive diagnostic for four-staged role-playing abilities across 12 LLMs. Crucially, experiments show that MRPrompt allows small models (e.g., Qwen3-8B) to match the performance of much larger closed-source LLMs (e.g., Qwen3-Max and GLM-4.7), and confirms that upstream memory gains directly enhance downstream response quality, validating the staged theoretical foundation.