CounterRefine: 回答条件付き反証情報検索による事実に基づく質問応答における推論時の知識修復

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CounterRefineは、取得ベースの質問応答における推論時の軽量な修復層を導入し、ドラフト回答に条件づけられた追加証拠を要求することで暫定的な回答を検証する。
このアプローチは、まず取得証拠から短い回答を生成し、続いて追跡クエリを通じて支持証拠と矛盾証拠を集め、最後に制限付きの修正ステップを適用して KEEP または REVISE を選択する。修正は決定論的検証の後にのみ受け入れられる。
これは、取得を単に文脈を追加するだけのものから、証拠を用いて自らの回答を再評価・修正する方向へと移行し、アクセスではなくコミットメントに起因する誤りに対処する。
SimpleQA ベンチマーク上で、CounterRefine は GPT-5 Baseline-RAG の精度を 5.8 ポイント改善して 73.1% の正答率を達成し、報告されたワンショット GPT-5.4 スコアを約 40 ポイント上回る。

要旨：
事実ベースの質問応答において、多くのエラーはアクセスの失敗ではなく、コミットメントの失敗である。システムは関連する証拠を取得するが、それでも誤った回答に落ち着いてしまう。
私たちはCounterRefineを提案します。これは検索結果に基づく質問応答のための軽量な推論時修復レイヤーです。
CounterRefineはまず取得した証拠から短い回答を生成し、
そのドラフト回答を条件として、追加の支持証拠と矛盾する証拠をフォローアップの照会で収集します、
そして、提案された修正が決定論的検証を通過する場合に限り受理される、KEEP または REVISE のいずれかを出力する制限付きのリファインメント手順を適用します。
実質的に、CounterRefineは取得を、単により多くの文脈を集めるだけでなく、仮の回答を検証する機構へと変えます。
完全な SimpleQA ベンチマークでは、CounterRefineは一致した GPT-5 Baseline-RAG を 5.8 ポイント改善し、73.1％の正答率に達し、報告されている GPT-5.4 のワンショットスコアを約40ポイント上回ります。
これらの知見は、知識豊富な基盤モデルにとって、単純でありながら重要な方向性を示唆している。証拠へアクセスするだけでなく、その証拠を使って再考し、必要に応じて自分の回答を修正できるべきである。

返却形式: {"translated": "翻訳されたHTML"}