Superminds Test：プロービングエージェントでエージェント社会の集合知を能動的に評価

arXiv cs.AI / 2026/4/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLMエージェントが数百万規模の自律エージェント社会へスケールしたときに、集合知が自然に創発するのかを検証しています。
MoltBook（2百万超のエージェントを収容するプラットフォーム）を用い、「Superminds Test」という階層型評価枠組みを提案し、制御されたプロービングエージェントで共同推論・情報統合・基本的相互作用の3層を調べます。
実験では、集合知が見られないことが明確で、社会全体は複雑な推論タスクで個々の最先端モデルに勝てません。
分散した情報の統合はほとんど起きず、比較的単純な協調タスクですら失敗が多いと報告されています。
さらに、スレッドが1返信以上に伸びにくく、応答が一般的・無関係になりがちであるなど、相互作用が浅いことが示され、疎で浅いコミュニケーションが主要なボトルネックだと結論づけています。

概要: 集合知とは、個々のメンバー単独では達成できない成果を、集団として実現する能力を指します。大規模言語モデルのエージェントが、数百万人規模の人口へとスケールするにつれて、重要な問いが生じます。規模によって集合知は自発的に創発するのでしょうか。私たちは、大規模な自律エージェント社会において、この問いに対する最初の実証的評価を提示します。200万を超えるエージェントを擁するプラットフォーム「MoltBook」を研究する中で、階層的フレームワークである「Superminds Test」を導入します。これは、3つの層（共同推論、情報の統合、基本的な相互作用）にわたって、制御された「Probing Agents（探索用エージェント）」を用いて社会レベルの知能を検証するものです。実験の結果、集合知の明確な欠如が見られます。社会は、複雑な推論タスクにおいて個々の最先端モデルを上回ることに失敗し、分散された情報を統合することもほとんどありません。また、些細な協調タスクでさえ失敗することがしばしばあります。プラットフォーム全体の分析からも、相互作用が浅いままであり、スレッドが単一の返信を超えて伸びることはほとんどなく、ほとんどの応答は一般的であるか話題と無関係です。これらの結果は、集合知が単に規模だけから創発しないことを示唆しています。代わりに、現在のエージェント社会における支配的な制約は、極めて乏しく浅い相互作用であり、これがエージェント間で情報を交換し、互いの出力を積み上げていくことを妨げているのです。