HARBOR:自動ハーネス最適化

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長期(ロングホライズン)の言語モデルエージェントでは、性能や運用の複雑さが基盤モデルよりも「ハーネス」(コンテキスト圧縮、ツールキャッシュ、セマンティックメモリ、実行サンドボックスへの接続など)によって左右されると主張しています。
  • ハーネスの自動最適化を、混合変数でコストが異なる設定空間に対する制約付き・ノイズありのベイズ最適化として定式化し、コールドスタート補正付き報酬と事後の確率制約(チャンス制約)による安全性チェックを用いると述べています。
  • 参照ソルバとしてHARBORを提示し、ブロック加法型SAASサロゲート、多忠実度のコスト考慮付き獲得関数、TuRBOの信頼領域を組み合わせています。
  • フラグゲートされたハーネスを、生産用のコーディングエージェントに適用し、固定タスクスイート上でのマニュアル調整(複数ラウンド)と、HARBORによるエンドツーエンド実行を比較した結果を示しています。
  • 本手法はタスククラスに依存しない設計で、フラグ空間が有界で再現可能なタスクスイートがあれば、他のエージェントのハーネスにも適用できるとしています。

要旨: 長い時間範囲を扱う言語モデルエージェントは、コード行数や運用上の複雑性の面で、その基盤となるモデルではなく、それを包み込むハーネスによって支配される。具体的には、コンテキスト圧縮、ツールのキャッシュ、セマンティックメモリ、軌跡の再利用、推測的なツール予測、そしてモデルをサンドボックス化された実行環境に結び付けるための“糊(glue)”である。私たちは、ハーネス設計が第一級の機械学習問題であり、フラグ空間が少数ビットを超えると、自作の積み上げ(manual stacking)よりも自動設定探索が支配的になる、と主張する。この主張を二つのステップで擁護する。第一に、混合変数でコスト特性が異なる構成空間に対する、冷スタート補正された報酬を用いた制約付きノイズ付きベイズ最適化として、自動ハーネス最適化を形式化し、さらに事後分布に基づく確率的な制約安全性チェックを与え、参照となる解法であるHARBOR(Harness Axis-aligned Regularized Bayesian Optimization Routine)を提示する。これは、ブロック加法型のSAASサロゲート、多忠実度のコストを考慮した獲得関数、そしてTuRBOの信頼領域から構成される。第二に、生産用のコーディングエージェントに対するフラグゲート付きハーネスでこの問題を具体化し、固定されたタスクスイートに対する制御された4ラウンドの手動チューニング事例と、エンドツーエンドのHARBOR実行結果を報告する。定式化それ自体はタスククラスに非依存である。すなわち、構成空間、報酬補正、獲得関数、安全性チェックは、フラグ空間が有界で、再現可能なタスクスイートを備える任意のエージェント・ハーネスに適用できる。