AIエージェントのハーネス設計|Anthropicが公開した「生成と評価の分離」パターンを読み解く
Zenn / 3/27/2026
💬 OpinionIdeas & Deep AnalysisTools & Practical Usage
Key Points
- Anthropicが提示する「生成(proposal)と評価(critic)」を分離する考え方を、AIエージェントのハーネス(実行・検証基盤)設計に適用する視点で整理している。
- 生成フェーズで候補を作り、評価フェーズで妥当性・品質を採点してフィルタ/選択することで、出力の一貫性と安全性を高める狙いが説明されている。
- 評価指標(基準)やプロンプト設計を、生成側と独立にチューニングできるため、改善サイクルを速められるという利点が示されている。
- ハーネス内での役割分担(何を生成に任せ、何を評価に任せるか)を明確にすることで、デバッグや再利用性も向上する、という構成になっている。
「AIエージェントに自分の仕事を評価させるな」
Claudeを作っているAnthropic自身が、そう警告しています。
2026年3月24日、Anthropicのエンジニアリングブログに「Harness design for long-running application development」という記事が公開されました。著者はAnthropic LabsチームのPrithvi Rajasekaran氏。
内容を一言でまとめるなら、AIエージェントに長時間かけてアプリを作らせるための設計パターンです。
これが刺さったのは、自分自身がClaude Codeで長いタスクを回したときの...
Continue reading this article on the original site.
Read original →広告
Related Articles
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)
[Boost]
Dev.to

Managing LLM context in a real application
Dev.to

Got My 39-Agent System Audited Live. Here's What the Maturity Scorecard Revealed.
Dev.to

OpenAI Killed Sora — Here's Your 10-Minute Migration Guide (Free API)
Dev.to

Switching my AI voice agent from WebSocket to WebRTC — what broke and what I learned
Dev.to