他者としてのあなたの人生の物語:豊かな心理測定プロファイルに条件づけたLLM生成ライフストーリーの往復評価

arXiv cs.CL / 2026/4/8

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、290人の参加者から得た実際の心理測定プロファイルを用いて、物語生成を条件づけることでLLMがパーソナリティ情報を堅牢に符号化できるかを検証し、その後、独立したモデルが生成されたライフストーリーのみから特性スコアを回復できるかを評価する。
  • 結果は、LLMによって生成された物語からパーソナリティ特性が回復可能であり、その性能は人間のテスト-再テスト信頼性に近づくことを示している(平均r = 0.750、ヒューマン上限の約85%に到達)。
  • 本発見は、6社の提供元に由来する10種類の異なるLLM物語生成器および3つの独立したLLMパーソナリティ評価モデルにわたって頑健であると報告されており、この効果が特定のモデルの組み合わせに限定されないことが示される。
  • バイアスと誤差の分析から、評価モデルはアラインメントによって生じるデフォルト的な振る舞いを補う場合でも精度を維持していることが示唆される。
  • 内容分析により、条件づけられた物語は行動的に差別化された言語を生成することが示される:コード化された特徴のうち10のうち9が、参加者自身の実際の会話から得られた特徴と一致し、物語中の情動反応パターンも実際の会話データで再現される。

要旨: 性格特性は自然言語に豊かに符号化されており、人間のテキストで訓練された大規模言語モデル(LLM)は、ペルソナ記述を条件として与えることで性格をシミュレートできます。しかし、既存の評価は主として、条件付けられたモデルによる質問票の自己報告に依存しているため、アーキテクチャの多様性が限られており、実際の人間の心理測定データを用いることはほとんどありません。これらの制約に対処しないままでは、性格の条件付けが個人差を心理測定的に情報量のある表現として生み出すのか、それとも形だけの特性記述との整合に過ぎないのかは不明です。LLMが拡張されたテキストに性格をどれほど頑健に符号化できるかを検証するために、本研究では290人の参加者から得られた実際の心理測定プロファイルを用いてLLMを条件付けし、一人称の人生物語のナラティブを生成します。その後、独立したLLMに対して、そうしたナラティブだけから性格スコアを回復する課題を課します。生成されたナラティブから性格スコアを回復でき、その水準は人間のテスト—再テスト信頼性に近い(平均r = 0.750、ヒトの上限の85%)こと、さらに10のLLMナラティブ生成器と、6つのプロバイダにまたがる3つのLLM性格スコアリング器にわたって回復が頑健であることを示します。体系的なバイアスを分解すると、スコアリングモデルは、整合(アラインメント)によって生じるデフォルトに対抗しながらその精度を達成していることが明らかになります。生成ナラティブの内容分析では、性格の条件付けが行動的に区別可能なテキストを生み出すことが示されます。コーディングされた10の特徴のうち9つが、参加者の実際の会話における同一の特徴と有意に相関し、また、ナラティブにおける性格に基づく情動的な反応性のパターンが、実際の会話データでも再現されます。これらの結果は、事前学習中に捉えられた性格と言語の関係が、個人差の頑健な符号化と復号を支えていること、さらに、実際の人間の行動で再現される特徴的な情動の変動パターンを含むことを示す証拠となります。