スタンフォード:自己改善するメタ・ハーネス

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • スタンフォードの研究者らは、LLMに提示するために「何の文脈を保存し、取得し、提示するか」を決めるハーネス(harness)コードを自動的に探索し改善する外側ループ型のシステム「Meta-Harness」を提案している。
  • このシステムは、ソースコードと、過去の候補に対するファイルシステムベースのスコアリング/実行トレースにアクセスできるエージェント型の提案器を用いることで、手作業のプロンプトやコンテキスト管理者に頼らない自動ハーネス・エンジニアリングを実現している。
  • 報告された結果では、Meta-Harnessは、最新のコンテキスト管理アプローチと比べてコンテキストトークンを4分の1にしつつ、オンラインのテキスト分類で7.7ポイント向上した。
  • 回収拡張型(Retrieval-Augmented)な数学推論では、1つ発見されたハーネスによって、5つの保持(held-out)モデルにまたがる200問のIMOレベル問題で精度が4.7ポイント向上した。
  • エージェント型コーディングでは、発見されたハーネスがTerminalBench-2で最良の手作業による基線を上回り、ローカルおよびデプロイ済みLLMシステムでの実用的な性能向上が示唆される。
Stanford: Self improving Meta-Harness

プロンプトエンジニアリングの次にコンテキストエンジニアリング、そしてエージェントとハーネスがありました。今はメタハーネスです。これは、エージェント的なミスを自動で修正し、性能を向上させ、必要とするコンテキストを減らすハーネスです。
https://arxiv.org/abs/2603.28052

「大規模言語モデル(LLM)システムの性能は、モデルの重みだけでなく、それらのハーネス、つまりモデルに保存・取得・提示する情報を決定するコードにも依存します。しかしハーネスは依然として主に手作業で設計されており、既存のテキスト最適化手法は、フィードバックを過度に圧縮してしまうため、この設定にうまく適合していません。私たちは、LLMアプリケーション向けにハーネスコードを探索する外側ループのシステムであるMeta-Harness(メタハーネス)を提案します。これは、ソースコードにアクセスし、ファイルシステムを通じてこれまでの候補すべてのスコアと実行トレースを評価する、エージェント的な提案者を用います。オンラインのテキスト分類では、Meta-Harnessは、必要なコンテキストトークンを4分の1にしながら、最先端のコンテキスト管理システムに比べて7.7ポイント向上します。検索拡張型の数学推論では、発見された単一のハーネスが、5つの保持モデルにわたって平均で4.7ポイント、200問のIMOレベル問題で精度を改善します。エージェント的なコーディングでは、発見されたハーネスがTerminalBench-2で最高の手作りベースラインを上回ります。これらの結果は、過去の経験へのより豊かなアクセスが、自動化されたハーネス工学を可能にすることを示しています。」

ここでは、主要なタスクが終わった後にローカルLLMを動かして、間違いの改善のためにフィードバックを活用したり、オープンソースのコードやプロジェクト自体を使ったりできるので、ローカルLLMにとって簡単そうな性能向上に見えます:https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact

投稿者 /u/GodComplecs
[リンク] [コメント]