表形式データ文書からのクレーム検証に向けたマルチエージェント手法

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、表形式のデータ文書から抽出されたクレームを検証するためのマルチエージェント枠組みMACEを提案しています。
  • 複雑な事前学習や単なる分解に依存する代わりに、Planner・Executor・Verifierの3つの専門エージェントが協調して、解釈可能な検証トレースを生成します。
  • 各エージェントはゼロショットのChain-of-Thought設定で動作し、Plannerが推論戦略を示し、Executorが計算手順を詳細化し、Verifierが論理を検証します。
  • 実験では、MACEが2つのデータセットで最先端(SOTA)を達成し、他の2つでは上位モデルと同程度の性能を示しつつ、より小さなモデル(27〜92B)で最良性能の80〜100%を実現したと報告されています(235Bと比較)。

概要: 表形式データ文書からの主張(claim)検証のための新しいアプローチを提案します。近年のLLMベースの手法は、複雑な事前学習/微調整を用いるか、あるいは検証を下位タスクに分解することが多い一方で、包括的な説明や汎用性に欠ける場合があります。これらの制限に対処するために、主張検証のためのマルチエージェント型フレームワーク(MACE: Multi-Agentic framework for Claim verification)を提案します。これは3つの専門エージェント、すなわちPlanner(計画者)、Executor(実行者)、Verifier(検証者)から構成されます。精緻な微調整の代わりに、各エージェントは、そのタスクを実行するためにゼロショットのChain-of-Thought(思考連鎖)設定を用います。MACEは、解釈可能な検証トレースを生成します。Plannerが明示的な推論戦略を生成し、Executorが詳細な計算手順を提示し、Verifierが論理を検証します。実験の結果、MACEは2つのデータセットで最先端(SOTA)の性能を達成し、さらに他の2つでは最良モデルと同等の性能を示しつつ、はるかに小さなモデルで最良性能の80--100\%を達成します。具体的には、235Bに対して27--92Bパラメータです。競争力のある性能、メモリ効率、そして透明性のある推論を兼ね備えていることから、私たちのフレームワークの有効性が際立っています。