構造的因果モデルに基づくグラウンディング付きマルチホップ推論：グループ相対ポリシー最適化による手法

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

マルチホップ事実検証（MHFV）は複数ステップにわたる根拠を組み立てる必要があり、LLMは幻覚や論理連鎖の断絶によって失敗しやすい。
本論文は、検証を構造的因果モデル（SCM）に基づいて行い、Chain-of-Thoughtだけに依存せず、主張の検証を構成的な因果推論として捉える枠組みを提案する。
実験では「逆U字型」の関係が示され、推論チェーンの長さ／構造的複雑性を上げすぎると精度が低下することが明らかになった。
このトレードオフを扱うために、ルールベースの強化学習としてグループ相対ポリシー最適化（GRPO）を導入し、構造の深さと簡潔さのバランスを動的に最適化する。
HoVerおよびEX-FEVERで、提案手法（SCM-GRPO）が既存のベースラインを大きく上回り、解釈可能で信頼性の高い複雑な事実検証を実現する。

要旨: 多段（Multi-Hop）事実検証（MHFV）は、異なる証拠にまたがる複雑な推論を必要とし、大規模言語モデル（LLM）にとって大きな課題となります。LLMはしばしばハルシネーションに悩まされ、論理の連鎖が断片化しがちです。既存手法は、Chain-of-Thought（CoT）によって透明性を高めているものの、証拠と主張の間にある因果的な依存関係を明示的にモデル化していません。本研究では、推論を構造的因果モデル（SCM）に根ざさせる、新しい枠組みを導入します。検証を、構成的な因果推論プロセスとして扱います。我々は経験的に、推論連鎖の長さと精度の間に「逆U字型」の相関が存在することを特定し、過度な構造的複雑性が性能を低下させることを明らかにします。これに対処するため、Group Relative Policy Optimization（GRPO）を用いたルールベースの強化学習戦略を提案します。このアプローチは、構造の深さと簡潔さのトレードオフを動的に最適化します。HoVerおよびEX-FEVERに関する大規模な実験により、我々のSCM-GRPOフレームワークが最先端のベースラインを大幅に上回り、複雑な事実検証に対して信頼性が高く、解釈可能な解決策を提供することを示します。