真実をめぐる議論:複数の大規模言語モデルエージェントによる討論駆動の主張検証

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、複雑な主張に対して、証拠を突き合わせ、正確な判定(verdict)に到達するために、2人の対立する「討論者(Debaters)」と「モデレーター(Moderator)」を用いる複数LLMエージェントの討論駆動型主張検証フレームワークDebateCVを提案する。
  • 単一エージェントによる主張検証では、証拠が微妙であったり多面的であったりする場合に、見落とされるような微細な誤りが生じうるとして、その検出精度を高めるために、構造化された敵対的(adversarial)討論のセットアップを動機づけている。
  • 著者らは、ゼロショットのモデレーターに関する重要な制約を特定し、それらが偏った判断や過度に中立的な判断をしがちであること、またモデレーターを訓練するための既存データセットが存在しないことを述べている。
  • これに対処するために、討論で対立する主張の重み付けをモデレーターが行う方法を改善する「Debate-SFT」を提案する。これは合成データを用いたポストトレーニング(post-training)手法である。
  • 実験結果は、討論ベースのアプローチが、非討論の最先端手法と比べて、さまざまな証拠条件における精度と、正当化(justification)の質の両方を向上させることを示している。

要旨: 最先端の単一エージェントによる主張検証手法は、多面的な証拠の微妙な分析を要する複雑な主張に対して苦戦しています。実世界の専門的なファクトチェッカーに着想を得て、複数のLLMエージェントによって駆動される、初の討論駆動型の主張検証フレームワークである extbf{DebateCV} を提案します。DebateCV では、2人の extit{Debaters} が反対の立場を論じ、単一エージェントの評価に潜む見落としがちな微細な誤りを浮かび上がらせます。次に、決定的な extit{Moderator} が、相反する議論の証拠としての強さを比較衡量し、正確な判定を下す必要があります。しかしゼロショットの Moderator は中立的な判断に偏っており、それらを訓練するためのデータセットも存在しません。このギャップを埋めるために、 extbf{Debate-SFT} を提案します。これは、合成データを活用して、主張検証のための討論を効果的に裁定するエージェントの能力を高める、事後学習(ポストトレーニング)フレームワークです。結果として、提案手法は、精度(さまざまな証拠条件にわたって)と正当化の品質の両方において、討論を用いない最先端手法を上回ることが示されました。