メモリ駆動型ロールプレイ：LLMsにおけるペルソナ知識の活用の評価と強化

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、長時間のオープンエンド対話において忠実で一貫したペルソナの特徴付けを維持する課題を指摘し、対話文脈から取得される内部記憶としてペルソナ知識を扱う Memory-Driven Role-Playing（MRP）を提案する。
本研究は、MREval、MRPrompt、および MRBench（中国語と英語のバイリンガルベンチマーク）を導入し、四つの記憶駆動能力（アンカリング、想起、境界づけ、演じること）を診断・強化する。
実験結果は、MRPrompt が小型モデル（例：Qwen3-8B）を大規模なクローズドソースLLMs（例：Qwen3-Max、GLM-4.7）と同等の性能に引き上げることを示し、メモリ重視の prompting が効率を高め得ることを実証している。
上流のメモリ獲得が下流の応答品質を改善することを強調し、12のLLMにわたる総合的な診断スイートを提供する。

Abstract

A core challenge for faithful LLM role-playing is sustaining consistent characterization throughout long, open-ended dialogues, as models frequently fail to recall and accurately apply their designated persona knowledge without explicit cues. To tackle this, we propose the Memory-Driven Role-Playing paradigm. Inspired by Stanislavski's "emotional memory" acting theory, this paradigm frames persona knowledge as the LLM's internal memory store, requiring retrieval and application based solely on dialogue context, thereby providing a rigorous test of depth and autonomous use of knowledge. Centered on this paradigm, we contribute: (1) MREval, a fine-grained evaluation framework assessing four memory-driven abilities - Anchoring, Recalling, Bounding, and Enacting; (2) MRPrompt, a prompting architecture that guides structured memory retrieval and response generation; and (3) MRBench, a bilingual (Chinese/English) benchmark for fine-grained diagnosis. The novel paradigm provides a comprehensive diagnostic for four-staged role-playing abilities across 12 LLMs. Crucially, experiments show that MRPrompt allows small models (e.g., Qwen3-8B) to match the performance of much larger closed-source LLMs (e.g., Qwen3-Max and GLM-4.7), and confirms that upstream memory gains directly enhance downstream response quality, validating the staged theoretical foundation.

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

メモリ駆動型ロールプレイ：LLMsにおけるペルソナ知識の活用の評価と強化

要点

Abstract

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ