これが最後のハーネス構築になる

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AIエージェントを複雑でドメイン特化した業務フローに投入するには、プロンプト・ツール・オーケストレーション・評価基準の設計といった「ハーネスエンジニアリング」が依然として専門家主導で必要だと主張しています。
提案手法は2段階で、Harness Evolution Loopが、敵対的な評価と過去履歴に基づく更新を通じて特定タスク用のハーネスを反復的に改善します。
さらにMeta-Evolution Loopにより、多様なタスクにまたがって“進化プロトコル”を学習し、新しいタスクに対してハーネスを素早く収束させることで、人手によるハーネス設計を不要にすることを目指します。
著者らはこの枠組みをメタラーニングとして形式化し、両ループのアルゴリズムを提示しており、「ハーネス構築」だけでなく「その自動化」そのものの設計を自動化する点に踏み込んでいます。

概要: AIエージェントは、複雑でドメイン固有のワークフローにますます導入されつつあります。そこでは、十数回のクリックやフォーム入力を要するエンタープライズのWebアプリケーションを操作し、多段にわたる研究パイプライン（検索、抽出、合成にまたがる）をオーケストレーションし、未知のリポジトリに対するコードレビューを自動化し、さらに、微妙なドメイン知識を必要とする顧客からのエスカレーションに対応します。 \textbf{各新しいタスク領域には、手間のかかる専門家主導のハーネス設計が必要です}: 基盤モデルを有効にするためのプロンプト、ツール、オーケストレーションのロジック、評価基準を設計することです。私たちは、このプロセスを自動化する二段階の枠組みを提示します。第一段階では、\textbf{ハーネス・エボリューション・ループ}が、単一のタスクに対してワーカーエージェントのハーネス $\mathcal{H}$ を最適化します。すなわち、ワーカーエージェント $W_{\mathcal{H}}$ がタスクを実行し、評価エージェント $V$ が敵対的に失敗を診断して性能をスコアし、エボリューションエージェント $E$ が、これまでの試行の全履歴に基づいてハーネスを修正します。第二段階では、\textbf{メタ・エボリューション・ループ}が、多様なタスクにわたってエボリューション手順 \$\Lambda = (W_{\mathcal{H}}, \mathcal{H}^{(0)}, V, E)\$ それ自体を最適化し、\textbf{どの新しいタスクでもハーネスが迅速に収束することを可能にするプロトコル \$\Lambda^{(\text{best})}\$ を学習します}――そのため、新規ドメインにエージェントを適応させるのに、人間によるハーネス設計はまったく不要になります。私たちは、メタラーニングへの対応関係を形式化し、両方のアルゴリズムを提示します。この枠組みは \textbf{手作業のハーネス設計を自動化されたハーネス設計へと移行し}、さらに一歩進んで――\textbf{自動化そのものの設計を自動化します}。