スタンフォード：自己改善するメタ・ハーネス

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

スタンフォードの研究者らは、LLMに提示するために「何の文脈を保存し、取得し、提示するか」を決めるハーネス（harness）コードを自動的に探索し改善する外側ループ型のシステム「Meta-Harness」を提案している。
このシステムは、ソースコードと、過去の候補に対するファイルシステムベースのスコアリング／実行トレースにアクセスできるエージェント型の提案器を用いることで、手作業のプロンプトやコンテキスト管理者に頼らない自動ハーネス・エンジニアリングを実現している。
報告された結果では、Meta-Harnessは、最新のコンテキスト管理アプローチと比べてコンテキストトークンを4分の1にしつつ、オンラインのテキスト分類で7.7ポイント向上した。
回収拡張型（Retrieval-Augmented）な数学推論では、1つ発見されたハーネスによって、5つの保持（held-out）モデルにまたがる200問のIMOレベル問題で精度が4.7ポイント向上した。
エージェント型コーディングでは、発見されたハーネスがTerminalBench-2で最良の手作業による基線を上回り、ローカルおよびデプロイ済みLLMシステムでの実用的な性能向上が示唆される。

プロンプトエンジニアリングの次にコンテキストエンジニアリング、そしてエージェントとハーネスがありました。今はメタハーネスです。これは、エージェント的なミスを自動で修正し、性能を向上させ、必要とするコンテキストを減らすハーネスです。
https://arxiv.org/abs/2603.28052

「大規模言語モデル（LLM）システムの性能は、モデルの重みだけでなく、それらのハーネス、つまりモデルに保存・取得・提示する情報を決定するコードにも依存します。しかしハーネスは依然として主に手作業で設計されており、既存のテキスト最適化手法は、フィードバックを過度に圧縮してしまうため、この設定にうまく適合していません。私たちは、LLMアプリケーション向けにハーネスコードを探索する外側ループのシステムであるMeta-Harness（メタハーネス）を提案します。これは、ソースコードにアクセスし、ファイルシステムを通じてこれまでの候補すべてのスコアと実行トレースを評価する、エージェント的な提案者を用います。オンラインのテキスト分類では、Meta-Harnessは、必要なコンテキストトークンを4分の1にしながら、最先端のコンテキスト管理システムに比べて7.7ポイント向上します。検索拡張型の数学推論では、発見された単一のハーネスが、5つの保持モデルにわたって平均で4.7ポイント、200問のIMOレベル問題で精度を改善します。エージェント的なコーディングでは、発見されたハーネスがTerminalBench-2で最高の手作りベースラインを上回ります。これらの結果は、過去の経験へのより豊かなアクセスが、自動化されたハーネス工学を可能にすることを示しています。」

ここでは、主要なタスクが終わった後にローカルLLMを動かして、間違いの改善のためにフィードバックを活用したり、オープンソースのコードやプロジェクト自体を使ったりできるので、ローカルLLMにとって簡単そうな性能向上に見えます：https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact

投稿者 /u/GodComplecs
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/11Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

スタンフォード：自己改善するメタ・ハーネス

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透