12人の怒れるAIエージェント:映画『十二人の怒れる男』の陪審討議を用いたマルチエージェントLLMの意思決定評価

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、映画『十二人の怒れる男』(1957)の12人の陪審員をLLMに置き換え、1人の反対者が集団の判断を変えられるかを検証するマルチエージェントのベンチマークを提案している。
  • 映画の人物設定に忠実なペルソナを持つ12エージェントで、GPT-4oとLlama-4-Scoutを3つのプロンプト条件のもとで比較したところ、17/18回が全会一致に至らない「ハング・ジャリー」になり、少数派から多数派への段階的説得はほとんど起きなかった。
  • GPT-4oは討議の柔軟性が低く、条件を通じて1回あたり平均約1.0回の投票変更に留まる一方、Llama-4-Scoutは投票変更が2.0〜6.0と大きく変動し、NOT_GUILTYの評決に到達した唯一のモデルだった。
  • 著者らは、マルチエージェント環境での討議の柔軟性を左右する主因はモデルの能力ではなく、RLHF(人間のフィードバックによる強化学習)によるアラインメント学習の強さだと結論づけている。
  • 本研究は探索的な位置づけであり、「陪審としてのLLM」評価やマルチエージェント討論ベンチマーク設計への示唆を議論している。

要旨: シドニー・ルメット監督の『十二人の怒れる男たち』(1957年)の12人の陪審員が、男性ではなく大規模言語モデル(LLM)だったらどうなるでしょうか。反対する唯一の陪審員は、それでも皆の考えを変えることができるのでしょうか。本論文は、この状況をLLM熟議のためのマルチエージェント・ベンチマークとして具体化します。すなわち、映画に忠実なペルソナをそれぞれに与えた12のエージェントが、マルチエージェントの枠組みを用いて、映画における殺人事件の事案を議論します。RLHFスぺクトラムの両端を代表する2つのモデル、GPT-4o(クローズドソース、重いアラインメント)とLlama-4-Scout(オープンウェイト、軽いアラインメント)を、3つの条件(ベースライン、オープンマインドなプロンプト、最初の投票なし)でテストします。各セルにつきN = 3の複製(合計18回の実行)です。結果として3つの知見が得られます。 (i) 18回のうち17回が「審理が膠着した陪審」(陪審が全員一致の評決に到達できない状態)で終わります。映画の中心的出来事である、徐々に少数派から多数派へと説得が進むことは、ほとんど起きません。これは、この設定における現在のLLMの支配的な失敗モードがアンカリングであることを示唆しています。 (ii) 2つのモデルは、内部ダイナミクスが大きく異なります。GPT-4oは、全条件を通じて1回の実行あたり平均1.0回の投票変更を生成するのに対し、Llama-4-Scoutはベースラインで2.0から、オープンマインドなプロンプトで6.0まで幅があり、また「最初の投票なし」条件においてのみNOT
_GUILTYの評決に到達します(3回の実行のうち1回)。同じ「オープンマインド」の指示が、Llamaでは内部化されるのに対し、GPT-4oでは無視されます。 (iii) この非対称性は、モデルの能力というよりも、RLHFアラインメント訓練の強度が、マルチエージェント設定における熟議の柔軟性(deliberative flexibility)の主要な決定要因であることを示唆します。能力ではなく柔軟性が、人間の熟議と整合します。本研究は探索的な研究として位置づけられ、LLM陪審(jury-of-LLMs)の評価と、マルチエージェント討論への含意について議論します。