概要: 専門のファクトチェッカーは、ドメイン知識と深い文脈理解に依拠して主張を検証する。大規模言語モデル(LLM)や大規模推論モデル(LRM)は、そのような根拠を欠いており、主として利用可能な証拠だけから推論するため、専門家主導の検証と完全自動の主張検証との間に不整合が生じる。このギャップを埋めるために、より有望な前進の道として、人間とAIの協調を提案する。そこでは、現実世界の知識やドメイン専門性に裏付けられた専門家のフィードバックが、モデルの推論を導く。しかし、既存のLRMは、特にマルチターンの対話設定において、自然言語によるフィードバックへ適切にキャリブレーションすることが難しい。本稿では、人間とAIの協調による主張検証のための枠組みであるCo-FactCheckerを提案する。我々は、モデルの思考トレースを共有の作業用メモリ(スクラッチパッド)として扱う新しい対話パラダイムを導入する。Co-FactCheckerは、専門家のフィードバックをトレース編集へと変換し、対話ベースの相互作用に起因する欠点を回避しつつ、トレースに対して狙いを定めた修正を導入する。トレース編集がマルチターン対話に比べて優位であることを示す理論的結果を提示し、さらに自動評価により、Co-FactCheckerが既存の自律型および人間-AI協調アプローチを上回ることを示す。人手評価でも、Co-FactCheckerはマルチターン対話より好まれ、高品質な推論と判定をもたらすとともに、比較的解釈しやすく、より有用な思考トレースを生成することが示される。
Co-FactChecker:大規模推論モデルを用いた人間-AI協調による主張検証のためのフレームワーク
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLM/LRMベースの主張検証が、プロのファクトチェッカーが用いる領域に基づく根拠(ドメイン・グラウンディング)や文脈理解をモデルが欠いているために困難になっていると主張する。
- 専門家のフィードバックを、モデルの推論トレースを修正するための対象化された「トレース・エディット」に変換する、人間-AI協調型フレームワークCo-FactCheckerを提案する。
- Co-FactCheckerは、モデルの思考トレースを共有のスケッチパッドとして機能させる相互作用パラダイムを導入し、キャリブレーションにおける自然言語の多ターン対話の限界を回避する。
- 著者らは、トレース・エディットが多ターン対話ベースの協調を上回り得ることを示す理論分析を提示し、自動評価の結果として、Co-FactCheckerが先行する自律型および人間-AI協調型の手法を上回ることを報告している。
- 人手による評価でも、Co-FactCheckerはより質の高い推論と判定をもたらし、さらに多ターン対話よりも解釈しやすく有用な思考トレースを生成することが見出されている。




