PAVE:前提に配慮した検証と編集による検索拡張LLMのための手法

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、検索拡張LLMに対する推論時の検証および編集レイヤであるPAVEを提案し、下書きされた回答が明示的に抽出された前提(premises)によって裏付けられているかを検証する。
  • PAVEは、取得したコンテキストを質問に条件付けされた原子的事実(atomic facts)へ分解し、初期の回答を生成したうえで、抽出した前提に対する裏付け(support)をスコアリングし、裏付けが低い出力を最終確定の前に修正する。
  • この手法は、暗黙的または検証不可能なコミットメントに依存するのではなく、明示的な前提、支持スコア、修正の判断を含む監査可能な推論の記録(reasoning trace)を生成する。
  • 取得器(retriever)とモデル基盤(backbone)を固定した制御されたアブレーション実験において、PAVEは、より単純なポストリトリーバルのベースラインよりも、エビデンスに裏付けられたQA性能を改善する。報告されている最大の改善幅は、スパンに基づくベンチマークで精度32.7ポイントの上昇に達した。

Abstract

リトリーバル拡張型言語モデルは関連する証拠を取得できますが、取得した文脈が結論を支持しているかどうかを明示的に確認する前に、依然として回答を確約してしまうことがあります。私たちは、証拠に基づく質問応答のための推論時検証レイヤであるPAVE(Premise-Grounded Answer Validation and Editing)を提示します。PAVEは、取得した文脈を質問条件付きの原子的事実に分解し、回答案を下書きし、その下書きが抽出された前提によってどれほどよく支持されているかをスコアリングし、最終化の前に支持の低い出力を修正します。その結果得られるトレースにより、明示的な前提、支持スコア、修正の判断というレベルで、回答の確約を監査可能にします。固定したリトリーバとバックボーンによる制御されたアブレーション実験では、PAVEは2つの証拠に基づくQA設定において、より単純なポストリトリーバルのベースラインを上回ります。最大の改善は、スパンに基づくベンチマークで32.7の精度ポイントに達しました。これらの結果は、明示的な前提抽出に加えて、支持にゲートされた修正を行うことで、リトリーバル拡張型LLMシステムにおける証拠に基づく整合性を強化できるという、概念実証の証拠であると私たちは考えています。