要旨:
事実ベースの質問応答において、多くのエラーはアクセスの失敗ではなく、コミットメントの失敗である。システムは関連する証拠を取得するが、それでも誤った回答に落ち着いてしまう。
私たちはCounterRefineを提案します。これは検索結果に基づく質問応答のための軽量な推論時修復レイヤーです。
CounterRefineはまず取得した証拠から短い回答を生成し、
そのドラフト回答を条件として、追加の支持証拠と矛盾する証拠をフォローアップの照会で収集します、
そして、提案された修正が決定論的検証を通過する場合に限り受理される、KEEP または REVISE のいずれかを出力する制限付きのリファインメント手順を適用します。
実質的に、CounterRefineは取得を、単により多くの文脈を集めるだけでなく、仮の回答を検証する機構へと変えます。
完全な SimpleQA ベンチマークでは、CounterRefineは一致した GPT-5 Baseline-RAG を 5.8 ポイント改善し、73.1%の正答率に達し、報告されている GPT-5.4 のワンショットスコアを約40ポイント上回ります。
これらの知見は、知識豊富な基盤モデルにとって、単純でありながら重要な方向性を示唆している。証拠へアクセスするだけでなく、その証拠を使って再考し、必要に応じて自分の回答を修正できるべきである。
返却形式: {"translated": "翻訳されたHTML"}




