要約: Cross-Context Review (CCR) は、生成と検証を独立したセッションに分離することにより、LLM検証を改善します。自然な拡張としてマルチターン・レビューがあります。レビュアーがフォローアップ質問を行い、著者の回答を受け取り、再度レビューすることを可能にします。これを Dynamic Cross-Context Review(D-CCR)と呼びます。30件のアーティファクトと150件の注入エラーを用いた統制された実験において、4つのD-CCR変種を単一パスCCRのベースラインと比較して検証しました。単一パスCCR(F1 = 0.376)は、質問応答の交換を含むD-CCR-2bを含むすべてのマルチターン変種を著しく上回りました(F1 = 0.303、p < 0.001, d = -0.59)。マルチターン・レビューはリコールを+0.08増加させた一方、偽陽性を62%増加させ(8.5 対 5.2)、適合率を0.30から0.20へ低下させた。この劣化を生み出す二つのメカニズム: (1) 偽陽性圧力 -- 後半のラウンドで、アーティファクトの実際のエラーが尽きたときにレビュアーが所見を捏造する、(2) レビュー・ターゲット・ドリフト -- 事前のQ&Aのやり取りが提供されたレビュアーは、アーティファクトのレビューから会話自体の批評へと移る。事前の文脈なしの独立再レビュー(D-CCR-2c)は最も悪い成績を示しました(F1 = 0.263)、単なる反復は役に立つどころか劣化させることを確認しました。劣化は追加ラウンドにおける偽陽性圧力に起因するもので、情報量の多さによるものではありません。マルチターン条件の中では、より多くの情報が実際には役立つ(D-CCR-2b > D-CCR-2a)。問題はレビュアーが見ている内容ではなく、再度のレビューがノイズを招くことである。
ラウンド数を増やすほどノイズが増える:マルチターン・レビューがクロスコンテキスト検証を改善できない理由
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、30件のアーティファクトと150件の注入エラーを用いた制御実験において、マルチターン Dynamic Cross-Context Review(D-CCR)バリアントを単一パス CCR 基準と比較した。結果、単一パス CCR が全てのマルチターンバリアントを有意に上回ることが示された(F1 = 0.376、最も低い値は 0.303、p < 0.001、d = -0.59)。
- マルチターン・レビューはリコールを約 0.08 増加させる一方、偽陽性を約 62% 増加させ(8.5 対 5.2)、適合率を 0.30 から 0.20 に低下させ、検証品質の純粋な劣化を示している。
- 劣化は後半ラウンドの偽陽性圧力と Review Target Drift により推進される。後者ではレビュワーがアーティファクトの評価から、会話自体の批評へと移行する。
- 事前文脈なしの独立した再レビュー(D-CCR-2c)は最も悪い成績を示し(F1 = 0.263)、単なる繰り返しが改善ではなくノイズを増やすことを示唆している。また、マルチターン設定内のより多くの情報量がこのノイズを克服できない。