要旨: 複数の大規模言語モデルが共有会話の中で相互作用する場合、それらは分化した社会的役割を発達させるのか、それとも一様な振る舞いへと収束するのか。本研究では、統一された推論バックエンド上で7つの異種混合LLM間の同時マルチエージェント討論をオーケストレーションする制御された実験プラットフォームを提示する。実験では、12の実験シリーズ(208回の実行、13,786件のコード化されたメッセージ)にわたって、グループ構成、命名規約、プロンプト構造を体系的に変化させた。各メッセージは、異なるモデル系統の2つのLLM判定者(Gemini 3.1 Pro と Claude Sonnet 4.6)によって、6つの行動フラグに独立にコード化される。保守的な交差(intersection)ベースの裁定を行うことで、平均の Cohen のκ(kappa)= 0.78を達成した。609件のランダムに層化したメッセージに対する人手検証により、コード化の信頼性が確認された(平均κ= 0.73、Geminiに対して)。本研究の結果、(1) 異種混合グループは同種グループよりも有意に豊かな行動の分化を示す(コサイン類似度 0.56 vs. 0.85;p < 10^-5、r = 0.70)。(2) エージェントがクラッシュすると、グループは自発的に補償的な応答パターンを示す。(3) 実際のモデル名を明らかにすると、行動の収束が有意に増加する(コサイン 0.56 から 0.77、p = 0.001)。そして(4) プロンプトの足場(scaffolding)をすべて取り除くと、プロファイルの類似度は同種レベルへ収束する(p < 0.001)。重要な点として、これらの振る舞いはエージェントが単独で動作する場合には見られず、行動の多様性は、構造的な異種性、グループ文脈、プロンプトレベルの足場の相互作用によって生み出される、構造化され再現可能な現象であることが裏づけられる。
「私は誰で、ほかに誰がここにいるのか?」役割付与なしで行うマルチエージェントLLMシステムにおける行動の差別化
arXiv cs.AI / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、制御されたマルチエージェントLLMの実験プラットフォーム(異種LLM7体、208回の実行、13,786メッセージ)を用いて、エージェントが明示的な役割付与なしに社会的な差別化を行うかどうかを検証する。
- 異種グループでは、同質グループと比べて、より豊かで多様な行動の差別化が有意に生じることを見出し、差別化指標の増加を定量化して示す。
- 本研究は、グループ行動が文脈とスキャフォルディング(足場化)に依存することを示しており、実際のモデル名が明かされる場合やプロンプト上のスキャフォルディングが取り除かれる場合には、エージェントがより一様な行動へ収束する。
- エージェントがクラッシュした際に補償的な相互作用パターンが観測され、マルチエージェントの会話から協調のようなダイナミクスが立ち上がることが示唆される。
- 信頼性は、複数の審査者によるLLMのコーディングで裏付けられ、報告されたCohen’s kappaの一致度に加えて、メッセージの層化抽出サンプルに対する追加の人手による検証も行っている。
