LLMにおける根拠に基づくマルチターン社会シミュレーションでの監査手法
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、ソーシャルサポートLLMの評価が単発のプロンプトに偏りがちである一方、実際のユーザーは状況を段階的に多ターンで開示する点を重視している。
- Redditの5つのコミュニティから得た支援要請の物語を順序立てた断片に分解し、それをターンごとに言語モデルへ提示するマルチターン・シミュレーション枠組みを提案する。
- 各応答は単一の品質スコアではなく、支援の構成を捉える既存の多ラベル分類体系であるSocial Support Behavior Code(SSBC)でコード化する。
- LLMの内部表現に対する線形プローブを用いて生成コンテキストを変えずにユーザーの苦痛に関する内部推定信号を推定し、その信号に支援選択が追随するかを検証する。
- Llama-3.1-8BとOLMo-3-7Bで6,200回超のターンを評価した結果、推定苦痛の高まりに伴い教示(teaching)が減少し、感情面・尊重志向の戦略(例:バリデーション)は示唆的ながらモデル依存であること、さらに行動は人口統計ではなくコミュニティ文脈(話題や談話規範)により独立に左右されることが示された。




