エージェント型ハーネス・エンジニアリング:観測可能性に駆動されるコーディングエージェント用ハーネスの自動進化
arXiv cs.CL / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、コーディングエージェントの「ハーネス」(モデルがリポジトリやツール、実行環境とどうやり取りするかに大きく影響する仕組み)を自動的に進化させるための枠組みとして、Agentic Harness Engineering(AHE)を提案しています。
- AHEは、コンポーネント編集・軌跡の検査・意思決定の3段階に対応する観測可能性を組み込み、編集可能な要素の表現化によって行動空間を明示して巻き戻し可能にする(コンポーネント観測)、長大なトークン軌跡を実用的に扱える証拠コーパスへ圧縮する(経験観測)、各編集に自己申告の予測を対応させ次ラウンドのタスク結果で検証する(意思決定観測)としています。
- 各ハーネス編集を反証可能な契約として扱うことで、最適化が単なる試行錯誤に陥ることを避けることを狙っています。
- 実験では、AHEを10反復するとTerminal-Bench 2のpass@1が69.7%から77.0%に向上し、人手で設計されたハーネス(Codex-CLI)や自己進化ベースラインを上回りました。
- 進化後に凍結したハーネスは他設定へも転移し、SWE-bench-verifiedでトークン効率を改善し、Terminal-Bench 2ではモデルファミリをまたいだ改善(クロスファミリ利得)を示したことから、ベンチ特化ではなく一般的なエンジニアリング経験が符号化されている可能性が示されています。



