クロスコンテキスト・レビュー: 生産セッションとレビューセッションを分離してLLM出力品質を向上させる

arXiv cs.CL / 2026/3/13

📰 ニュースModels & Research

要点

  • CCRは、生産会話履歴にアクセスできない新しいセッションで実施されるレビューを導入し、自己レビューのバイアスを低減します。
  • 4つの条件にわたる30件のアーティファクトと150個の注入エラーを用いた管理された実験で、CCRはF1スコア28.6%を達成し、SR(24.6%、p=0.008、d=0.52)、SR2(21.7%、p<0.001、d=0.72)、SA(23.8%、p=0.004、d=0.57)を上回りました。
  • SR2の結果は、同じセッション内で2回レビューしても1回のレビューを上回らないことを示しており(p=0.11)、CCRの優位性の説明としての反復を排除します。
  • CCRは任意のモデルで機能し、インフラを必要とせず、追加セッションは1回だけで済むため、LLM出力品質を向上させる実用的なアプローチです。
大規模言語モデルは、同じセッションで自らの出力の誤りを見逃しやすい。レビューが生成と同じセッションで行われるときに生じる。本論文はクロスコンテキスト・レビュー(CCR)を導入する。CCRは、生成履歴へアクセスできない新しいセッションで行われる、直截の方法である。我々は管理された実験を実施した。30件のアーティファクト(コード、技術文書、プレゼンテーション原稿)に対し、150個の注入エラーを加え、4つのレビュ条件――同一セッション内自己評価(SR)、反復自己評価(SR2)、文脈認識サブエージェント評価(SA)、およびクロスコンテキスト・レビュー(CCR)――の下でテストした。360件を超えるレビューの間、CCRはF1スコア28.6%に達し、SR(24.6%、p=0.008、d=0.52)、SR2(21.7%、p<0.001、d=0.72)、SA(23.8%、p=0.004、d=0.57)を上回った。 SR2の結果は解釈にとって最も重要である:同じセッション内で2回レビューしても1回には及ばなかった(p=0.11)、CCRの優位性を説明する因子としての反復を排除する。その利点は、文脈の分離そのものに由来する。CCRはどのモデルとも機能し、インフラストラクチャを必要とせず、追加のセッションはわずか1回で済む。