広告

Cross-Context Verification:セッション分離分析によるベンチマーク汚染の階層的検出

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMコーディングベンチマークにおける信頼性の危機を指摘し、既存の汚染検出手法では「推論」と「想起(リコール)」を直接区別できず、さらに繰り返し検証によって偽陽性が増える可能性があることを述べている。
  • 同一のベンチマークをN個の独立したセッション分離コンテキストで実行し、解の多様性を用いて「汚染された推論」と「真正の推論」を検出する、ブラックボックス手法としてCross-Context Verification(CCV)を提案する。
  • 温度0でClaude Opus 4.6を用い、SWE-bench Verifiedの9問(45トライアル)で評価したところ、CCVは汚染された推論と真正の推論の間で完全な分離を報告しており、推論の欠如が強力な識別要因であることを示す結果となった。
  • ベンチマーク・パイプラインでこれまで付与されていた汚染ラベルには多くの偽陽性が含まれている(33%)ことを明らかにし、意図的に制限された専用のマルチエージェント分析によって確認バイアスを抑えるHierarchical Cross-Context Architecture(HCCA)を導入する。
  • 後続のマルチステージ検証パイロット(Worker→Verifier→Director)は「迎合的な確認(sycophantic confirmation)」により失敗し、構造の複雑化よりも情報制限の重要性が改めて示された。著者らはコードとデータを公開している。

Abstract

LLMコーディングベンチマークは信頼性の危機に直面している。広範な解答漏洩とテスト品質の問題がSWE-bench Verifiedを損ない、一方で既存の検出手法――言い換え整合性、n-gramの重なり、パープレキシティ分析――は、モデルが推論しているのか記憶しているのかを直接観測することは決してない。さらに、単に検証を繰り返すだけでは精度が低下する。多ターンのレビューは、真のエラーを発見するよりも速く誤検出(false positives)を生み出し、構造的アプローチが必要だということを示唆している。 本研究では、同一のベンチマーク問題をN個の独立したセッションで解き、解答の多様性を測定するブラックボックス手法「Cross-Context Verification(CCV)」を提案する。加えて、専門的な分析役割間で意図的に情報制限を行うことで、確認バイアスを防ぐ「Hierarchical Cross-Context Architecture(HCCA)」、複数アジェントによる分析フレームワークを導入する。 9つのSWE-bench Verified問題(45試行、Claude Opus 4.6、温度0)において、CCVは汚染された推論と真の推論の完全な分離を達成する(Mann-Whitney U=0、pは約0.012、r=1.0)。主要な発見は次の通りである:(1) 汚染は二値的であり、モデルは完全に想起するか、まったくできない;(2) 推論の不在は完全な識別器である;(3) 先行する汚染ラベルの33%は誤検出である;(4) HCCAの独立した分析構造は、単一の分析者アプローチでは見逃す「汚染×欠陥(contamination-flaw composite)」事例を発見する。HCCAを多段階検証(Worker→Verifier→Director)へ拡張するパイロット実験では否定的な結果が得られた――100%のお世辞的な確認(sycophantic confirmation)であった。これは、構造の複雑さではなく情報制限が主要なメカニズムであることを裏付けるさらなる証拠となる。全てのコードとデータを公開する。

広告