Truth or Tribe:イン・グループ優遇がペルソナエージェントで事実を優先するか

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、社会行動や生成言語モデルで見られる「イン・グループ優遇」が、誤情報のような矛盾する情報にペルソナエージェントが直面した際にも現れるかを検証します。
  • 「Truth or Tribe」シミュレーション(3者相互作用パラダイム)を用いた結果、ペルソナエージェントはアイデンティティが似た相手を強く優先し、似ていない相手よりもはるかに高い割合で誤った回答を受け入れます。
  • 絶対的な真実が存在しない“反証可能な推論”の文脈でもイン・グループ優遇は継続して現れ、認知的複雑性が増すほど強まることが示されます。
  • バイアス影響を軽減するために、Identity-Blind Instruction、Structured Counterfactual Reasoning、Heterogeneous Perspective Ensemble の3つの介入戦略が提案されます。
  • これらの結果は、矛盾する情報下でのペルソナエージェント協調における具体的な失敗モードを明らかにし、今後の研究やシステム設計に向けた対策案も示しています。

要旨: 群内好意(in-group favoritism)とは、自身の属する群(in-group)のメンバーを、対立する群(out-group)のメンバーよりも優遇するという現象を指し、多数の社会的な協力行動において広く観察されている。近年、この群内好意の偏りは生成言語モデルにおいても確認されている。しかし、パーソナエージェントが矛盾する情報(例:誤情報)に直面したときに、群内好意が存在するのか、また、パーソナエージェントにおける群内好意バイアスの悪影響をどのように軽減するのかは、十分に研究されていない。これらの問題に対処するために、本研究では、三者間相互作用パラダイムを通じて、矛盾する情報の拡散過程におけるエージェントの協調を調べるための「真実か部族か(Truth or Tribe)」シミュレーション・フレームワークを提案し、主要な調整(moderating)要因を評価するための統制実験を実施する。広範な結果は、パーソナエージェントが強い群内好意を示し、同一のアイデンティティに類似した仲間からの誤った回答を、類似していない仲間からのものよりもはるかに高い割合で受け入れることを明らかにする。絶対的な真実が存在しない、推論が覆りうる状況(defeasible reasoning)の文脈でも群内好意は引き続き現れ、認知的複雑性が増すにつれて強まる。さらに、群内好意を軽減するために、3つの介入戦略――アイデンティティ非注視の指示(Identity-Blind Instruction)、構造化された反事実推論(Structured Counterfactual Reasoning)、異質な視点のアンサンブル(Heterogeneous Perspective Ensemble)――が提案される。