Claude Codeハーネスエンジニアリングを最小構成でA/Bテストしてみた
Zenn / 2026/4/19
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Claude Codeの“ハーネス”を最小構成で組み、A/Bテストする際の考え方と実装の進め方を共有している。
- A/Bテストを回すために必要な設計(評価の切り分け、比較可能性の確保など)に焦点が当たっている。
- 最小構成で試すことで、過剰な実験基盤構築を避けつつ性能差や挙動の違いを観測する方針が示されている。
- 実験・検証の再現性を意識し、継続的に改善へ繋げるための実務的な流れが示唆される。
はじめに
2026年に入ってから日本のAI開発コミュニティで「ハーネスエンジニアリング」という概念が急速に広がっています。CLAUDE.mdでAIに「お願い」するだけでは出力が安定しない、という課題に対して、周辺の仕組み(ハーネス)でAIを制約するというアプローチです。
概念は分かる。でも本当に効くのか?
実際にローカルで最小構成のA/Bテストを組んで手を動かしてみました。この記事ではその検証内容と結果をまとめます。
ハーネスエンジニアリングとは
「ハーネス(harness)」は元々、馬を制御する馬具のことです。ポイントは馬具は馬の脚力を削ぐものではなく、むしろ全力で走れるように...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →関連記事

Black Hat USA
AI Business

ブラックハット・アジア
AI Business

Cloudflare、AIエージェント用のファイルシステム「Cloudflare Artifacts」発表。Git対応バージョン管理とRESTful API対応のファイルシステム
Publickey

Cloudflare、AIエージェントがメールの送受信を行える「Cloudflare Email Service」パブリックベータで公開
Publickey

ヘッドレスなSalesforce登場、あらゆる機能がAPI/CLI/MCPでアクセスできる「Salesforce Headless 360」発表
Publickey