Claude Codeハーネスエンジニアリングを最小構成でA/Bテストしてみた
Zenn / 4/19/2026
💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
Key Points
- Claude Codeの“ハーネス”を最小構成で組み、A/Bテストする際の考え方と実装の進め方を共有している。
- A/Bテストを回すために必要な設計(評価の切り分け、比較可能性の確保など)に焦点が当たっている。
- 最小構成で試すことで、過剰な実験基盤構築を避けつつ性能差や挙動の違いを観測する方針が示されている。
- 実験・検証の再現性を意識し、継続的に改善へ繋げるための実務的な流れが示唆される。
はじめに
2026年に入ってから日本のAI開発コミュニティで「ハーネスエンジニアリング」という概念が急速に広がっています。CLAUDE.mdでAIに「お願い」するだけでは出力が安定しない、という課題に対して、周辺の仕組み(ハーネス)でAIを制約するというアプローチです。
概念は分かる。でも本当に効くのか?
実際にローカルで最小構成のA/Bテストを組んで手を動かしてみました。この記事ではその検証内容と結果をまとめます。
ハーネスエンジニアリングとは
「ハーネス(harness)」は元々、馬を制御する馬具のことです。ポイントは馬具は馬の脚力を削ぐものではなく、むしろ全力で走れるように...
Continue reading this article on the original site.
Read original →Related Articles

Black Hat USA
AI Business

Black Hat Asia
AI Business
Are we confusing Agent Execution Runtimes with true Agent Runtime Environments? [D]
Reddit r/MachineLearning

How to Debug AI-Generated Code: A Systematic Approach
Dev.to

"Browser OS" implemented by Qwen 3.6 35B: The best result I ever got from a local model
Reddit r/LocalLLaMA