RoleConflictBench：ロール対立シナリオのベンチマークによるLLMの文脈感度の評価

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

RoleConflictBenchは、ロール対立の社会的ジレンマにおいてLLMがどれだけ文脈に敏感に反応できるかを測るための新しいベンチマークである。
ベンチマークでは、意思決定の制約として「状況の緊急度（situational urgency）」を用い、主観的な領域でも客観的に比較可能なシナリオを作る。
3段階のパイプラインにより、5つの社会領域・65の役割にまたがる13,000件超の現実的なケースを、競合状況の緊急度を系統的に変えながら構築している。
10種類のLLMを分析した結果、客観的な文脈ベースラインから大きく外れることが判明し、モデルは動的な状況手がかりよりも特定の社会的役割に関する学習済みの嗜好（preferences）によって主に判断される。

要旨: 人はしばしば役割の葛藤に遭遇する。これは、複数の役割に対する期待が衝突し、同時に満たすことができない社会的ジレンマである。大規模言語モデル（LLM）がこうした社会的ダイナミクスをますます扱うようになるにつれ、重要な研究課題が浮上する。こうしたジレンマに直面したとき、LLMは動的な文脈上の手がかりを優先するのか、それとも学習された嗜好を優先するのか。本研究では、そのためにRoleConflictBenchという新しいベンチマークを導入し、役割葛藤の場面におけるLLMの文脈感度を測定することを目的とする。この主観的な領域において客観的な評価を可能にするために、意思決定の制約として状況上の切迫度を用いる。データセットは、3段階のパイプラインによって構築し、切迫度の異なる競合する状況を体系的に変化させることで、5つの社会的領域にまたがり65の役割に対して、現実的なシナリオを13,000件以上生成する。これにより、文脈感度を定量的に測定できるようになり、モデルの意思決定が状況上の文脈に一致するのか、それとも学習された役割の嗜好によって上書きされるのかを判断できる。10個のLLMに対する分析の結果、モデルはこの客観的なベースラインから大きく逸脱していることが明らかになった。動的な文脈上の手がかりに応答するのではなく、意思決定は主として特定の社会的役割に対する嗜好によって支配されている。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

RoleConflictBench：ロール対立シナリオのベンチマークによるLLMの文脈感度の評価

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer