私はここ数か月、コーディングエージェントを構築してきて、追加したあらゆるコンポーネントが、自分が重視していた解決率を動かせないことを一つ一つ見届けてきました。まずは検証器。次にマルチ候補のサンプリング。そしてその後に構造化出力のサブエージェント。それぞれは、観測された特定の失敗モードによって正当化され、増分のコストは小さそうに見えました。しかし、どれも役に立ちませんでした。清華大学の論文 Natural-Language Agent Harnesses は、GPT-5.4 の高推論で SWE-bench Verified 上で実行され、損失の原因を直接説明しています。つまり、ベースラインのコーディングエージェントの上に同一モデルの検証器を置くとタスク成功が OSWorld で 8.4 パーセントポイント悪化し、マルチ候補のサンプリングでも同じ方向に 5.6 悪化するのです。どちらも同じ構造的な理由で失敗しています。検証器と提案者は実行者(doer)と同じモデルです。訓練分布、事前分布(priors)、失敗モードを共有しています。実行者が自信満々に間違っていると、検証器も同じ自信で誤った出力を承認します。チェックは誤りを捕捉しません。承認してしまうのです。
このパターンは一般化します。2026年3月下旬の3本の論文が、失敗モード、その帰結として従うべきルール、そしてそのハーネスに対して実行できる監査を説明します。正しい順序で読むと、それらは3層プロトコルを形作り、最初に検証器の失敗モードを捕捉し、その後は数値に言及せずに残りのアブレーション表を予測します。
tl;dr
- 清華大学の NLAH のアブレーションは、モジュール単位で制御します。検証器は OSWorld で精度を 8.4pp 回帰させ、マルチ候補探索は 5.6pp 回帰させます。どちらも同じ構造的な理由で負けます。つまり、実行者(doer)の盲点を使い回しているからです。
- 表全体は一つのルールから導かれます。新しいシグナルを導入するハーネス・モジュールは勝ちます。実行者のシグナルを使い回すモジュールは負けます。このルールは、数値に依存せずに、表のすべての行を予測します。
- フィダン(Fudan)の AHE は、アブレーションを編集(edit)単位の監査に変換します。各編集は、予測される修正と予測される回帰(regressions)のマニフェストを送ります。次の反復では、それをタスクレベルのデルタに対して検証し、git上で取りこぼし(misses)は元に戻されます。修正の精度(Fix-precision)は 33.7%(ランダムの5倍)です。回帰の精度(Regression-precision)は 11.8%(ランダムの2倍)で、この非対称性が手法のオープンな問題です。
- スタンフォードの Meta-Harness は両者の上流にあります。提案者には、生の失敗トレースを与えると探索セットの精度が 50.0% になり、LLMによる要約を与えると 34.9% になります。後者は、スコアのみを与えた場合と統計的に同じです。トレース圧縮は、最適化のシグナルをおよそ 15pp 破壊します。
- プロトコルは依存関係によってそれらを組み合わせます。まずL0のトレース有用性、次にL1のモジュール・アブレーション、そして続くすべての編集に対するL2のマニフェスト検証です。L0を間違えると、劣化した真実(ground truth)の上でL1/L2が崩れます。
全文 こちら >