Abstract
大規模言語モデル(LLM)は、多ホップの質問応答(MHQA)において脆さが残っています。MHQAでは、検索と推論を通じて文書間の根拠を組み合わせる必要があります。反復的な検索システムは、早い段階でのリコールの低い軌道にロックしてしまい、その後段での誤りを増幅することで失敗することがあります。一方、計画のみのアプローチは、途中の根拠が変化したときに適応できない静的なクエリ集合を生成してしまう可能性があります。私たちは extbf{Planned Active Retrieval and Reasoning RAG (PAR^2-RAG)}、すなわち カバレッジ(coverage)と コミットメント(commitment)を分離する二段階の枠組みを提案します。PAR^2-RAG はまず、広さ優先(breadth-first)のアンカー付けを行って高リコールの根拠フロンティアを構築し、その後、根拠の十分性(evidence sufficiency)を制御しながら、反復ループ内で深さ優先(depth-first)の精緻化を適用します。4つのMHQAベンチマークにおいて、PAR^2-RAGは既存の最先端ベースラインを一貫して上回ります。IRCoTと比較すると、PAR^2-RAGは最大で extbf{23.5%} 高い精度を達成し、NDCGにおいて最大 extbf{10.5%} の検索改善を示します。