Big Five 30ファセットに整合するコントラスティブSAEによる特性活性ルーティングを用いた、ファセット単位のペルソナ制御（ロールプレイングLLM向け）

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コントラスティブに学習したスパース自己符号化器（Sparse AutoEncoders: SAEs）を用いて、ロールプレイングエージェントのペルソナ制御を学習効率よく行う手法を提案する。SAEsはBig Fiveの30ファセット・モデルに整合した、ファセット単位の性格ベクトルを学習する。
長い対話でプロンプト／RAGの信号が薄まったり、ペルソナ付きラベルによる教師ありの微調整を必要としたりすることに頼らずに、生成中に関連する性格ファセットを動的に選択する「特性活性ルーティング（trait-activated routing）」を導入する。
著者らは、ファセット間での監督（スーパービジョン）を均衡させた、リーク制御済みのデータセット（15,000サンプル）を構築し、SAEが解釈可能な制御ベクトルを学習できるようにする。
LLMでの実験により、提案手法はContrastive Activation Addition（CAA）およびプロンプトのみのベースラインと比べて、キャラクター忠実度が向上し、より安定し、出力品質も一貫していることが示される。SAE+Promptが最も良い性能を示す。
本研究では、再現性を支援し、RPAs（ロールプレイング・エージェント）における制御可能なペルソナ誘導に関するさらなる研究を促すため、データセットをGitHubで公開している。

概要: ロールプレイング・エージェント（RPA）におけるパーソナリティ制御は、一般に、訓練不要の手法により達成されています。具体的には、プロンプトや検索拡張生成（RAG）を通じて persona（人物像）記述と記憶を注入する方法、あるいは persona 固有コーパスに対する教師あり微調整（SFT）による方法です。SFT は有効になり得る一方で、persona にラベル付けされたデータが必要であり、新しい役割に対して再学習が必要になるため、柔軟性が制限されます。対照的に、プロンプトおよび RAG ベースのシグナルは適用しやすいものの、長い対話の中で希釈されてしまい、結果としてドリフトが生じ、場合によってはパーソナリティ挙動が一貫しないことがあります。これに対処するため、本研究では Big Five の30ファセット・モデルに整合した、ファセット（側面）レベルのパーソナリティ制御ベクトルを学習する、コントラスト学習に基づく Sparse AutoEncoder（SAE）フレームワークを提案します。各ファセットに対してバランスの取れた監督を提供するために、新たに 15,000 サンプルのリーク制御コーパスを構築します。学習されたベクトルはモデルの残差空間に統合され、特性が活性化するルーティング・モジュールによって動的に選択されます。これにより、正確で解釈可能なパーソナリティ・ステアリング（誘導）が可能になります。大規模言語モデル（LLM）での実験により、提案手法は文脈化された設定においてもキャラクターの忠実性と出力品質の安定性を維持し、コントラスト学習に基づく Activation Addition（CAA）およびプロンプトのみのベースラインを上回ることが示されます。SAE+Prompt の組み合わせ構成は、全体として最良の性能を達成し、コントラスト学習された潜在ベクトルが、対話の一貫性を保ちながらパーソナ同定（persona）制御を強化し得ることを確認します。データセットは以下で利用可能です: https://github.com/lunat5078/BigFive-Personality-Facets-Dataset