要旨: 大規模言語モデル(LLM)は、都市分析における人間の知覚の代理としてますます用いられていますが、パーソナ(役割)によるプロンプトが意味のある、かつ再現可能な行動の多様性を生み出すかどうかは依然として不明です。本研究では、異なるパーソナがマルチモーダルLLMによって生成される都市のセンチメント(感情・評価)判断に影響するかを調べます。性別、経済的地位、政治的志向、性格にまたがる階層的なパーソナ集合を用い、各パーソナごとに複数のエージェントを実装して、PerceptSentデータセットの都市シーン画像を評価し、パーソナ内の一貫性と、パーソナ間の変動の両方を測定します。その結果、同一パーソナを共有するエージェント間で強い収束が見られ、安定した再現可能な挙動が示されます。しかし、パーソナ間の差別化は限定的です。すなわち、経済的地位と性格は統計的に検出可能ではあるものの、実務的にはわずかな変動しか生み出さない一方で、性別は測定可能な効果を示さず、政治的志向は影響がほとんどありません。さらにエージェントは「両極化バイアス」を示し、人間の注釈でよく見られる中間のセンチメントカテゴリをまとめてしまいます。その結果、粗い粒度の極性(ポラリティ)タスクでは性能が強い一方、センチメントの解像度が高くなるほど低下し、単純なラベルベースのパーソナ・プロンプトでは微細な知覚判断を捉えられないことが示唆されます。パーソナ・コンディショニング(条件付け)の寄与を切り分けるために、本研究では追加で、パーソナなしの同一モデルも評価します。驚くべきことに、パーソナなしモデルは、すべてのタスク変種において、人間のラベルとの一致度が、パーソナ条件付けモデルに匹敵、あるいは上回る場合があることがわかりました。この設定では、単純なラベルベースのパーソナ・プロンプトが付加する注釈価値は限定的である可能性があります。
安定した振る舞い、限定的な多様性:都市の感情認識におけるLLMエージェントのペルソナ有効性
arXiv cs.CL / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この研究は、ペルソナ・プロンプトが都市の感情判断において、多峰的な(マルチモーダル)LLMエージェントの行動を意味のある形で、かつ再現可能に多様化できるかを、PerceptSentデータセットの画像解析を通じて検証している。
- 同一ペルソナを与えた場合、複数のエージェント実装で振る舞いが強く収束し、ペルソナ条件下での振る舞いが安定かつ再現可能であることが示された。
- ペルソナ間の差は限定的で、経済的地位と性格は統計的に検出可能だが実務上は小さい変動にとどまり、性別は測定可能な効果がなく、政治的志向はごくわずかな影響に留まった。
- エージェントには極端化バイアスがあり、人間の注釈に多い中間の感情カテゴリが統合されるため、粗い極性(ポジ/ネガ)タスクでは良好でも、感情のきめ細かさを上げるほど性能が低下する。
- さらにペルソナなしで同一モデルを評価したところ、ペルソナありの場合と比べて人間ラベルとの一致が同等以上になるケースもあり、この設定ではラベルベースのペルソナ・プロンプトの付加価値が限定的である可能性が示唆された。




