SPASM:安定性を重視した、パーソナ主導のエージェント・シミュレーションによるマルチターン対話生成

arXiv cs.CL / 2026/4/13

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • SPASMは、LLMエージェントが長いホライズンにわたって一貫したパーソナ、役割、目標を維持しなければならないマルチターンの合成対話を生成するための、安定性を第一に据えたフレームワークとして導入される。
  • この手法は、パーソナ生成(スキーマのサンプリングと検証)、クライアント–レスポンダ間の対話生成、終了検出をモジュール化することで、首尾一貫し、範囲が適切に定義された会話を生成する。
  • パーソナのドリフト、役割の混同、「エコー」のような長期にわたるアイデンティティ失敗を防ぐために、SPASMは、対話履歴を視点非依存の形式で保持し、各エージェントの視点へ決定論的に投影するEgocentric Context Projection(ECP)を提案する。
  • 複数のLLMバックボーンと9組のクライアント–レスポンダの組み合わせにわたる実験により、4,500人のパーソナと45,000件の会話から成るデータセットを生成し、アブレーション結果では、ECPが人間による検証下でパーソナのドリフトを低減し、エコーを排除することが示される。
  • 著者らはGitHubでSPASMのコードを公開しており、研究者や開発者がモデル重みを変更せずにこのフレームワークを適用できるようにしている。

要旨: 大規模言語モデルは、指導、サポート、カウンセリングといったマルチターンの場面でますます導入されており、信頼性は長い地平にわたって一貫した役割、ペルソナ、目標を維持できるかに依存している。この要件は、LLMを用いて学習や評価のための合成対話を生成する場合に特に重要になる。というのも、LLM同士の会話では、ペルソナのドリフト、役割の混乱、そして「エコー(反響)」のようなアイデンティティ関連の失敗が蓄積し得るからである。ここで「エコー」とは、一方のエージェントが次第に相手の振る舞いをなぞってしまう現象を指す。我々はSPASM(Stable Persona-driven Agent Simulation for Multi-turn dialogue generation)を提案する。これは、シミュレーションを(i)スキーマサンプリングによるペルソナ生成、もっともらしさ検証、自然言語によるペルソナ設計、(ii)Client—Responderの対話生成、(iii)首尾一貫した停止のための終了検知、という3つの要素に分解し、安定性を最優先するモジュール型の枠組みである。モデル重みを変更せずに長期的な安定性を向上させるため、我々はEgocentric Context Projection(ECP)を提案する。対話履歴は視点に依存しない表現として保持され、生成の前に各エージェントのエゴセントリック(自己中心的)な見え方へ決定論的に射影される。
3つのLLMバックボーン(GPT-4o-mini、DeepSeek-V3.2、Qwen-Plus)と9つのClient—Responderの組み合わせにわたって、4,500のペルソナと45,000の会話からなるデータセットを構築した(ペルソナ4,500×各ペアリングにつき10会話、計10組)。アブレーションの結果、ECPはペルソナのドリフトを大幅に低減し、人手による検証ではエコーを解消することが示された。さらに埋め込み解析により、ペルソナ構造が復元され、強いレシーバ(Responder)主導の相互作用ジオメトリが明らかになった。我々のコードはhttps://github.com/lhannnn/SPASMで利用可能である。