人間のパーソナリティ特性・社会人口統計・ソーシャルメディア行動を“影”として捉えながら、LLMが社会問題について討論する様子をマッピングする
arXiv cs.CL / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本稿は、「Cognitive Digital Shadows(CDS)」と呼ばれる合成データセット(19万件)を提案し、ペルソナや文脈に条件付けされたプロンプトによってLLM生成文がどのように変わるかを分析できるようにする。
- CDSは19種類のLLMを用いて作成され、各出力は「人間のペルソナ」または「AIアシスタント役」をシャドーするようにモデルへプロンプトを与えて生成される。
- データセットは、ワクチン/医療、ソーシャルメディア上の偽情報、科学におけるジェンダーギャップ、STEM分野のステレオタイプという4つの論争的な社会トピックを扱い、17の社会人口統計・心理属性をエンコードして、プロンプト、言語、立場、推論の関係を追えるようにしている。
- 生成文はトピックへのアンカー付けについて検証されており、解釈可能なNLP(例:テキストの“forma mentis”ネットワーク)を使った感情分析にも活用できる。
- ペルソナ、トピック、モデル間で感情的・意味論的なフレーミングをグループ単位で比較できる、ユーザーフレンドリーなダッシュボード付きのプーリング・プラットフォームも用意されており、将来的なバイアスや社会的感度、アラインメントの監査に役立つ。