Meta-Harness:モデルハーネスのエンドツーエンド最適化
arXiv cs.AI / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの性能がモデルの重みだけでなく、「ハーネス」コードにも依存していると主張する。ハーネスは、モデルに格納・取得・提示されるコンテキストを制御する。
- 提案として、Meta-Harnessは外側ループ型のエージェントシステムであり、提案者(proposer)を用いてソースコードへアクセスし、スコアリングと、ファイルシステムに記録された実行トレースによって候補を評価することで、ハーネスコードを探索する。
- オンラインのテキスト分類において、Meta-Harnessは最先端のコンテキスト管理手法に比べて精度を7.7ポイント向上させる一方、コンテキストトークン使用量を4分の1に削減する。
- リトリーバル強化型の数学推論では、自動的に発見された単一のハーネスにより、200件のIMOレベル問題に対して、5つの保持モデル(held-out models)すべてで平均4.7ポイントの精度向上が得られる。
- エージェント型コーディング課題では、発見されたハーネスがTerminalBench-2において、最良の手作業で設計されたベースラインを上回る。これは、自動化されたハーネス設計が実運用のアプリケーションを実質的に改善し得ることを示唆している。



