DiscoUQ:LLMエージェントアンサンブルにおける不確実性定量化のための構造化された不一致分析
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、浅い多数決(ボート)統計に頼るのではなく、エージェント間の構造化された不一致をモデル化することで、LLMエージェントアンサンブルにおける不確実性を定量化する枠組みDiscoUQを提案する。
- DiscoUQは、エージェントの推論から意味論的な不一致のシグナル(例:証拠の重なり、議論の強さ、分岐の深さ)を抽出し、それらに埋め込みの幾何学的特徴(例:クラスタ距離や分散)を組み合わせる。
- さらに、ロジスティック回帰およびニューラルネットワークを用いて較正済みの信頼度推定を行う、段階的に複雑度を高めた3つの派生手法—DiscoUQ-LLM、DiscoUQ-Embed、DiscoUQ-Learn—を提示する。
- 4つのベンチマーク(StrategyQA、MMLU、TruthfulQA、ARC-Challenge)において、Qwen3.5-27Bを用いた5エージェント設定で、DiscoUQ-LLMは最良のベースラインに対してAUROCを0.802まで改善(0.791)し、またキャリブレーションも向上させる(ECE 0.036 vs. 0.098)。
- 本手法はベンチマーク間での強い汎化性能を示し、エージェントに「弱い不一致(weak disagreement)」が見られ、単純な投票数え上げが性能不足となるあいまいなケースで最大の改善をもたらす。
