Cross-Context Verification:セッション分離分析によるベンチマーク汚染の階層的検出
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMコーディングベンチマークにおける信頼性の危機を指摘し、既存の汚染検出手法では「推論」と「想起(リコール)」を直接区別できず、さらに繰り返し検証によって偽陽性が増える可能性があることを述べている。
- 同一のベンチマークをN個の独立したセッション分離コンテキストで実行し、解の多様性を用いて「汚染された推論」と「真正の推論」を検出する、ブラックボックス手法としてCross-Context Verification(CCV)を提案する。
- 温度0でClaude Opus 4.6を用い、SWE-bench Verifiedの9問(45トライアル)で評価したところ、CCVは汚染された推論と真正の推論の間で完全な分離を報告しており、推論の欠如が強力な識別要因であることを示す結果となった。
- ベンチマーク・パイプラインでこれまで付与されていた汚染ラベルには多くの偽陽性が含まれている(33%)ことを明らかにし、意図的に制限された専用のマルチエージェント分析によって確認バイアスを抑えるHierarchical Cross-Context Architecture(HCCA)を導入する。
- 後続のマルチステージ検証パイロット(Worker→Verifier→Director)は「迎合的な確認(sycophantic confirmation)」により失敗し、構造の複雑化よりも情報制限の重要性が改めて示された。著者らはコードとデータを公開している。




