RoleConflictBench:ロール対立シナリオのベンチマークによるLLMの文脈感度の評価

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • RoleConflictBenchは、ロール対立の社会的ジレンマにおいてLLMがどれだけ文脈に敏感に反応できるかを測るための新しいベンチマークである。
  • ベンチマークでは、意思決定の制約として「状況の緊急度(situational urgency)」を用い、主観的な領域でも客観的に比較可能なシナリオを作る。
  • 3段階のパイプラインにより、5つの社会領域・65の役割にまたがる13,000件超の現実的なケースを、競合状況の緊急度を系統的に変えながら構築している。
  • 10種類のLLMを分析した結果、客観的な文脈ベースラインから大きく外れることが判明し、モデルは動的な状況手がかりよりも特定の社会的役割に関する学習済みの嗜好(preferences)によって主に判断される。

要旨: 人はしばしば役割の葛藤に遭遇する。これは、複数の役割に対する期待が衝突し、同時に満たすことができない社会的ジレンマである。大規模言語モデル(LLM)がこうした社会的ダイナミクスをますます扱うようになるにつれ、重要な研究課題が浮上する。こうしたジレンマに直面したとき、LLMは動的な文脈上の手がかりを優先するのか、それとも学習された嗜好を優先するのか。本研究では、そのためにRoleConflictBenchという新しいベンチマークを導入し、役割葛藤の場面におけるLLMの文脈感度を測定することを目的とする。この主観的な領域において客観的な評価を可能にするために、意思決定の制約として状況上の切迫度を用いる。データセットは、3段階のパイプラインによって構築し、切迫度の異なる競合する状況を体系的に変化させることで、5つの社会的領域にまたがり65の役割に対して、現実的なシナリオを13,000件以上生成する。これにより、文脈感度を定量的に測定できるようになり、モデルの意思決定が状況上の文脈に一致するのか、それとも学習された役割の嗜好によって上書きされるのかを判断できる。10個のLLMに対する分析の結果、モデルはこの客観的なベースラインから大きく逸脱していることが明らかになった。動的な文脈上の手がかりに応答するのではなく、意思決定は主として特定の社会的役割に対する嗜好によって支配されている。