コーディングエージェントがLLMハーネスを自動最適化してSOTAを達成したMeta-Harnessを解説する

Zenn / 2026/4/5

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • コーディングエージェントがLLMハーネス(評価・検証のための枠組み)を自動最適化し、SOTA相当の性能を達成した「Meta-Harness」の考え方と全体像を解説している。
  • ハーネス側の設計・評価条件・探索/最適化手順を改善することで、同じLLMでもコーディングタスクでの成果が押し上げられる点が強調されている。
  • 自動最適化を回すことで、人手でのチューニングに比べて探索効率と再現性を高められることが示唆されている。
  • コーディングエージェント開発において、モデルの改良だけでなく「評価/ハーネス設計」も重要なボトルネックになり得るという示唆がある。
はじめに この論文の完全解説(英語・図解付き)は flecto で公開中 → 論文の概要(TL;DR) コーディングエージェントがLLM評価ハーネス(モデルの回答方法を指定するラッパーコード)を自動最適化するシステム「Meta-Harness」を提案。TerminalBench-2でHaiku 4.5エージェント中1位(37.6%)、テキスト分類で手作業ハーネス比+7.7ポイントを達成した。 背景と問題設定 LLMのベンチマーク評価において、「ハーネス」と呼ばれるラッパーコードの品質が結果に大きく影響する。これまでは研究者が手動でチューニングしており、多大な時間とドメイン知識...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →