Meta-Harness：モデルハーネスのエンドツーエンド最適化

arXiv cs.AI / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの性能がモデルの重みだけでなく、「ハーネス」コードにも依存していると主張する。ハーネスは、モデルに格納・取得・提示されるコンテキストを制御する。
提案として、Meta-Harnessは外側ループ型のエージェントシステムであり、提案者（proposer）を用いてソースコードへアクセスし、スコアリングと、ファイルシステムに記録された実行トレースによって候補を評価することで、ハーネスコードを探索する。
オンラインのテキスト分類において、Meta-Harnessは最先端のコンテキスト管理手法に比べて精度を7.7ポイント向上させる一方、コンテキストトークン使用量を4分の1に削減する。
リトリーバル強化型の数学推論では、自動的に発見された単一のハーネスにより、200件のIMOレベル問題に対して、5つの保持モデル（held-out models）すべてで平均4.7ポイントの精度向上が得られる。
エージェント型コーディング課題では、発見されたハーネスがTerminalBench-2において、最良の手作業で設計されたベースラインを上回る。これは、自動化されたハーネス設計が実運用のアプリケーションを実質的に改善し得ることを示唆している。