論争のある主張の検証のための、漸進的RAGと役割切替を用いた法廷スタイルのマルチエージェント討論

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが幻覚や浅い推論に陥りやすいハイステークスな主張検証を改善するための、法廷スタイルの構造化マルチエージェント討論フレームワークPROClaimを提案する。
Progressive RAG（P-RAG）と役割切替エージェント（例：原告、弁護側、裁判官）を組み合わせることで、単一の検索1回に頼るのではなく、討論の過程で証拠プールを反復的に拡張・精緻化できるようにする。
証拠の交渉、自己省察、ならびに異種の複数裁判官による集約を追加することで、キャリブレーション、頑健性、判断の多様性を高める。
Check-COVIDベンチマークに対するゼロショット実験では、PROClaimは81.7%の精度を達成し、標準的なマルチエージェント討論を10.0ポイント上回る。改善の大部分はP-RAGによるもので（+7.5 pp）、寄与が大きい。
著者らは、構造化された討論とモデルの異種性が、体系的バイアスを緩和し、主張検証システムのより信頼性の高い基盤を提供すると報告している。コードとデータは公開される。