LLMにおける根拠に基づくマルチターン社会シミュレーションでの監査手法

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、ソーシャルサポートLLMの評価が単発のプロンプトに偏りがちである一方、実際のユーザーは状況を段階的に多ターンで開示する点を重視している。
Redditの5つのコミュニティから得た支援要請の物語を順序立てた断片に分解し、それをターンごとに言語モデルへ提示するマルチターン・シミュレーション枠組みを提案する。
各応答は単一の品質スコアではなく、支援の構成を捉える既存の多ラベル分類体系であるSocial Support Behavior Code（SSBC）でコード化する。
LLMの内部表現に対する線形プローブを用いて生成コンテキストを変えずにユーザーの苦痛に関する内部推定信号を推定し、その信号に支援選択が追随するかを検証する。
Llama-3.1-8BとOLMo-3-7Bで6,200回超のターンを評価した結果、推定苦痛の高まりに伴い教示（teaching）が減少し、感情面・尊重志向の戦略（例：バリデーション）は示唆的ながらモデル依存であること、さらに行動は人口統計ではなくコミュニティ文脈（話題や談話規範）により独立に左右されることが示された。

Abstract

ユーザーがチャットボットから社会的な支援を求めるとき、自身の状況を段階的に開示するが、支援的なLLMの評価の多くは、単一ターンで完全に指定されたプロンプトに依存している。我々は、このギャップを埋めるマルチターンのシミュレーション・フレームワークを導入する。5つのRedditコミュニティから得られた支援要求のナラティブを、順序付けられた断片に分解し、言語モデルへターンごとに順次明かす。各応答は、単一の品質スコアではなく、支援の構成（composition）を捉える、確立されたマルチラベル分類法であるSocial Support Behavior Code（SSBC）でコード化する。支援の選択が、ユーザーの苦痛についてのモデル自身の解釈と追随しているかどうかを問うために、生成コンテキストを変えずに、隠れ表現に対する線形プローブを用いて、この内部シグナルを推定する。2つの中規模モデル（Llama-3.1-8B、OLMo-3-7B）と6,200ターン超において、支援の構成は推定された苦痛に応じて体系的に変化する。すなわち、推定された苦痛が高まるにつれて教授（teaching）が減少するという結果は、アーキテクチャをまたいで再現される。一方で、情動（affective）や尊重（esteem）志向の戦略（例えば、肯定的な受容（validation））の増加は示唆的であるが、モデル固有であり、よりノイズの多い注釈に基づいている。コミュニティの文脈は独立して行動を形作り、人口統計カテゴリではなく、話題や談話の規範に沿って変化する。単一ターン評価では見えないこれらの軌跡レベルのダイナミクスは、社会的にセンシティブなアプリケーションに向けたマルチターンの監査フレームワークを動機づける。