コーディングエージェントがLLMハーネスを自動最適化してSOTAを達成したMeta-Harnessを解説する
Zenn / 4/5/2026
💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
Key Points
- コーディングエージェントがLLMハーネス(評価・検証のための枠組み)を自動最適化し、SOTA相当の性能を達成した「Meta-Harness」の考え方と全体像を解説している。
- ハーネス側の設計・評価条件・探索/最適化手順を改善することで、同じLLMでもコーディングタスクでの成果が押し上げられる点が強調されている。
- 自動最適化を回すことで、人手でのチューニングに比べて探索効率と再現性を高められることが示唆されている。
- コーディングエージェント開発において、モデルの改良だけでなく「評価/ハーネス設計」も重要なボトルネックになり得るという示唆がある。
はじめに
この論文の完全解説(英語・図解付き)は flecto で公開中 →
論文の概要(TL;DR)
コーディングエージェントがLLM評価ハーネス(モデルの回答方法を指定するラッパーコード)を自動最適化するシステム「Meta-Harness」を提案。TerminalBench-2でHaiku 4.5エージェント中1位(37.6%)、テキスト分類で手作業ハーネス比+7.7ポイントを達成した。
背景と問題設定
LLMのベンチマーク評価において、「ハーネス」と呼ばれるラッパーコードの品質が結果に大きく影響する。これまでは研究者が手動でチューニングしており、多大な時間とドメイン知識...
Continue reading this article on the original site.
Read original →💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

I Built a Voice AI with Sub-500ms Latency. Here's the Echo Cancellation Problem Nobody Talks About
Dev.to

How I Found $1,240/Month in Wasted LLM API Costs (And Built a Tool to Find Yours)
Dev.to

LLM Semantic Caching: The 95% Hit Rate Myth (and What Production Data Actually Shows)
Dev.to
Inside the Creative Artificial Intelligence (AI) Stack: Where Human Vision and Artificial Intelligence Meet to Design Future Fashion
MarkTechPost

AI Citation Volatility: Why 60% of Your Sources Disappear Every Month
Dev.to