表形式データ文書からのクレーム検証に向けたマルチエージェント手法

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、表形式のデータ文書から抽出されたクレームを検証するためのマルチエージェント枠組みMACEを提案しています。
複雑な事前学習や単なる分解に依存する代わりに、Planner・Executor・Verifierの3つの専門エージェントが協調して、解釈可能な検証トレースを生成します。
各エージェントはゼロショットのChain-of-Thought設定で動作し、Plannerが推論戦略を示し、Executorが計算手順を詳細化し、Verifierが論理を検証します。
実験では、MACEが2つのデータセットで最先端（SOTA）を達成し、他の2つでは上位モデルと同程度の性能を示しつつ、より小さなモデル（27〜92B）で最良性能の80〜100%を実現したと報告されています（235Bと比較）。

概要: 表形式データ文書からの主張（claim）検証のための新しいアプローチを提案します。近年のLLMベースの手法は、複雑な事前学習／微調整を用いるか、あるいは検証を下位タスクに分解することが多い一方で、包括的な説明や汎用性に欠ける場合があります。これらの制限に対処するために、主張検証のためのマルチエージェント型フレームワーク（MACE: Multi-Agentic framework for Claim verification）を提案します。これは3つの専門エージェント、すなわちPlanner（計画者）、Executor（実行者）、Verifier（検証者）から構成されます。精緻な微調整の代わりに、各エージェントは、そのタスクを実行するためにゼロショットのChain-of-Thought（思考連鎖）設定を用います。MACEは、解釈可能な検証トレースを生成します。Plannerが明示的な推論戦略を生成し、Executorが詳細な計算手順を提示し、Verifierが論理を検証します。実験の結果、MACEは2つのデータセットで最先端（SOTA）の性能を達成し、さらに他の2つでは最良モデルと同等の性能を示しつつ、はるかに小さなモデルで最良性能の80--100\%を達成します。具体的には、235Bに対して27--92Bパラメータです。競争力のある性能、メモリ効率、そして透明性のある推論を兼ね備えていることから、私たちのフレームワークの有効性が際立っています。