エージェント型ハーネス・エンジニアリング：観測可能性に駆動されるコーディングエージェント用ハーネスの自動進化

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文は、コーディングエージェントの「ハーネス」（モデルがリポジトリやツール、実行環境とどうやり取りするかに大きく影響する仕組み）を自動的に進化させるための枠組みとして、Agentic Harness Engineering（AHE）を提案しています。
AHEは、コンポーネント編集・軌跡の検査・意思決定の3段階に対応する観測可能性を組み込み、編集可能な要素の表現化によって行動空間を明示して巻き戻し可能にする（コンポーネント観測）、長大なトークン軌跡を実用的に扱える証拠コーパスへ圧縮する（経験観測）、各編集に自己申告の予測を対応させ次ラウンドのタスク結果で検証する（意思決定観測）としています。
各ハーネス編集を反証可能な契約として扱うことで、最適化が単なる試行錯誤に陥ることを避けることを狙っています。
実験では、AHEを10反復するとTerminal-Bench 2のpass@1が69.7%から77.0%に向上し、人手で設計されたハーネス（Codex-CLI）や自己進化ベースラインを上回りました。
進化後に凍結したハーネスは他設定へも転移し、SWE-bench-verifiedでトークン効率を改善し、Terminal-Bench 2ではモデルファミリをまたいだ改善（クロスファミリ利得）を示したことから、ベンチ特化ではなく一般的なエンジニアリング経験が符号化されている可能性が示されています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/29Dailyインサイトを見る →

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

Dev.to

エージェント型ハーネス・エンジニアリング：観測可能性に駆動されるコーディングエージェント用ハーネスの自動進化

要点

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

故障コードからスマートな修理へ：Google Cloud NEXT ’26に触発されたAIメカニック・アシスタントの作り方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力