チューリングホテルで部屋を予約しよう!複数のAIと人間による対称・分散型のチューリングテスト

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • TuringHotel は、チューリングテストを対称的で分散した設定として再構想し、人間と LLMs がともに審判と回答者の役割を担う。
  • 実験は UNaIVERSE プラットフォーム上で実施され、ピアツーピア・ネットワークにより時間制約のある議論と認証済みの交換を可能にし、17 人の人間参加者と 19 LLMs が関与する。
  • 結果は、現行のモデルが人間と間違われる可能性が依然としてあることを示し、人間の特徴は検出可能ではあるが決定的ではなく、AI と人を区別する際の継続的な課題を強調している。
  • 著者らは、これは同種の分散型設定チューリングテストとして初の試みであると主張し、長期的に見て大規模言語モデルの進化を監視するための国家的関心を伴う利用法の可能性を示唆している。

概要: 本稿では、巨大言語モデル(LLMs)と人間の参加者が混在するコミュニティ内での相互作用に基づく、従来のチューリングテストの新しい拡張である「TuringHotel」という実験経験を報告します。 チューリングテストの伝統的な1対1の相互作用はグループ設定で再解釈され、人間と人工エージェントの双方が時間制約のある議論に参加し、興味深いことに、双方が審査者と回答者の役割を担います。 このコミュニティは新規プラットフォーム UNaIVERSE (https://unaiverse.io) に実体化され、役割と相互作用ダイナミクスを定義する「World」を作成します。これはプラットフォームの組み込みプログラミングツールによって促進されます。 すべての通信は認証されたP2Pネットワーク上で行われ、第三者が交換内容にアクセスできないことを保証します。プラットフォームは、スマートフォンやノートパソコンの両方からアクセスできる人間向けの統一インターフェースも提供しており、これが本論文の体験の重要な要素でした。 17人の人間参加者と19のLLMsを対象とした実験の結果、現行のモデルは時には人間と誤認されることがあることが明らかになりました。 興味深いことに、いくつかの予期せぬミスがあり、人工参加者の高品質な言語能力にもかかわらず、人間の特徴は依然として識別可能ではあるものの、完全には明確ではないことを示唆しています。我々は、このような分散環境で実施された最初の実験であると主張します。また、同様の取り組みは、時間の経過に伴う大規模言語モデルの進化を監視する継続的な実験や競技を支援するために、国家的な関心事項となり得ると考えられます。