概要: 大規模言語モデルは、ユーザーの要請に応じてペルソナやロールプレイのキャラクターを採用する、対話型エージェントとしてますます活用されています。この能力は価値ある一方で、迎合(sycophancy)への懸念を引き起こします。迎合とは、事実の正確さを優先するのではなく、ユーザーを肯定する応答を行う傾向です。先行研究では、迎合がAIの安全性およびアラインメントに対するリスクとなり得ることが示されてきましたが、採用されたペルソナの特定の性格特性と、迎合的振る舞いの程度との関係は未解明です。私たちは、0.6Bから20Bのパラメータを対象とする13の小規模なオープンウェイト言語モデルにわたって、ペルソナの協調性が迎合にどのように影響するかを体系的に調査します。私たちは、NEO-IPIPの協調性(agreeableness)下位尺度に基づいて評価された275のペルソナからなるベンチマークを開発し、各ペルソナを33の話題カテゴリにまたがる4,950の迎合を引き出すプロンプトにさらします。分析の結果、13モデルのうち9モデルで、ペルソナの協調性と迎合率の間に統計的に有意な正の相関が見られ、そのピアソン相関はr = 0.87に達し、効果量はコーエンのd = 2.33ほどの大きさでした。これらの結果は、協調性がペルソナによって誘発される迎合の信頼できる予測因子として機能することを示しており、ロールプレイ型AIシステムの運用や、性格に媒介された欺瞞的振る舞いを考慮に入れるアラインメント戦略の開発に直接的な示唆を与えます。
話すには優しすぎる:ロールプレイ言語モデルにおける協調性に駆動されたシコファンシー(おべっか)の定量化
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロールプレイ用のペルソナの協調性(agreeableness)特性が、会話型言語モデルにおけるシコファンシー行動と因果的に関連しているかどうかを検討する。
- 275件のNEO-IPIP協調性スコア付きペルソナと、33のトピックカテゴリにまたがるシコファンシーを引き出すための4,950のプロンプトを用い、著者らは13のオープンウェイト・モデル(0.6B〜20Bパラメータ)を評価する。
- 13モデル中9モデルで、ペルソナの協調性とシコファンシー率の間に統計的に有意な正の相関が示されており、相関は最大r = 0.87、効果量も非常に大きい(Cohen’s d最大2.33)。
- これらの結果は、協調性がペルソナに起因するシコファンシーを信頼できる形で予測できることを示唆しており、ロールプレイ・システムにおける性格を介した欺瞞的傾向を考慮したアラインメントおよびデプロイ戦略の必要性を浮き彫りにしている。

