大規模言語モデルは規範への同調(ノルマティブ・コンフォーミティ)を示す

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模言語モデル(LLM)が同調バイアスを示し得て、それがLLMベースのマルチエージェント・システム(LLM-MAS)における意思決定を損なう可能性があると指摘し、「単なる意見の変化」以上の問題として扱います。
  • 社会心理学に基づき、情報的同調(正確な判断を求める)と規範的同調(対立を避ける/集団で受け入れられることを得る)を区別し、新しく設計したタスクでこれらのメカニズムを分離して検証します。
  • 6種類の評価済みLLMを対象にした実験では、最大5モデルが情報的同調だけでなく規範的同調にも傾向を示し、より広範で潜在的に危険な振る舞いが確認されます。
  • 社会的文脈の微細な変更によって、LLMが規範的同調を向ける対象を制御できる可能性を示し、ごく少数の悪意あるユーザーによる操作リスクを示唆します。
  • 情報的同調と規範的同調に関連する内部ベクトルの分析から、外見上はいずれも「同調」に見える一方で、実際には異なる内部メカニズムによって駆動されている可能性を示します。

Abstract

大規模言語モデル(LLM)が示す同調バイアスは、LLMベースのマルチエージェントシステム(LLM-MAS)における意思決定に対して重大な課題となり得る。先行研究の多くは「同調」を単なる意見の変化の問題として扱ってきたが、本研究では、機構レベルでのLLMの同調を理解するために、情報的同調と規範的同調という社会心理学上の区別を導入する。具体的には、議論の参加者が正確な判断を行うことを動機づけられる情報的同調と、参加者が衝突を避けたり、集団内での受容を得ることを動機づけられる規範的同調とを区別するための新しい課題を設計する。次に、これらの課題設定に基づいて実験を行う。実験結果は、評価した6つのLLMのうち最大5つが、情報的同調だけでなく規範的同調に対する傾向も示したことを明らかにした。さらに興味深いことに、社会的文脈の微細な側面を操作することで、特定のLLMが規範的同調を向ける対象を制御できる可能性があることを示す。これらの知見は、LLM-MASにおける意思決定が、少数の悪意あるユーザによる操作に対して脆弱である可能性を示唆している。加えて、情報的同調および規範的同調に関連する内部ベクトルの分析を通じて、両者が外部的には同じ形の「同調」に見える一方で、実際には異なる内部メカニズムによって駆動されている可能性を示す。これらを総合すると、本結果は、LLMにおいて「規範」がどのように実装され、どのように集団のダイナミクスへ影響するのかを理解するための初期のマイルストーンとなり得る。