DeliberationBench: ユーザーの見解に対する大規模言語モデルの影響に関する規範的ベンチマーク

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • DeliberationBenchは、討議型世論調査を標準として、ユーザーの信念に対する大規模言語モデル(LLMs)の説得的影響を評価するための規範的ベンチマークとして提案されている。
  • 著者らは、4,088人の米国参加者が65の政策提案について6つの最先端LLMと議論した、事前登録済みの無作為化実験でこのアプローチを実証している。
  • 結果は、試験対象のLLMが参加者の意見に対して実質的な影響を及ぼし、その影響が討議後の純意見変化と正の関連を持つことを示しており、広く認識論的に望ましい効果を示唆している。
  • 分析は、話題領域、人口統計的サブグループ、およびモデルのバリエーション間で影響が異なることを見出し、LLMが見解形成に与える影響のニュアンスあるパターンを浮き彫りにしている。
  • この枠組みは、LLMの影響が民主的に正統な基準に沿い続け、ユーザーが自分の見解を形成する際の自律性を維持することを保証するための評価・監視ツールとして提示されている。
要旨: 大規模言語モデル(LLMs)はアシスタントや思考パートナーとして浸透しており、ユーザーの信念に対する説得的影響を特徴づけることが重要である。しかし、中心的な課題は「有益」と「有害」な形の影響を、規範的に正当で合理的に区別することである。我々は DeliberationBench を提案する。これは討議型世論調査の過程を標準とする LLM 影響を評価するベンチマークである。我々は、4,088人の米国参加者が65の政策提案について6つの最先端LLMと議論した事前登録済みの無作為化実験でこのアプローチを実証する。Deliberative Democracy Lab が実施した4つの事前の討議型世論調査の意見変化データを用い、試験対象のLLMの影響は規模として実質的であり、討議後の純意見変化と正の関連を持つというエビデンスを見出し、これらのモデルが広く認識論的に望ましい効果を及ぼすことを示唆している。さらに、話題領域、人口統計学的サブグループ、およびモデル間で差分的な影響を探る。我々の枠組みは評価およびモニタリングのツールとして機能し、LLMの影響が民主的に正統な基準と整合し続け、ユーザーが自分の見解を形成する自律性を維持するのを支援する。