要旨: ブラックボックスAPIを通じてデプロイされた大規模言語モデルでは、推論コストが反復されるたびに、しばしば一度きりの学習コストを上回ります。そこで、費用のかかる推論を再利用可能な中間表現へと償却(amortize)する、構成的なエージェント型システムが動機づけられます。本研究では、この種の広範なシステムを Guide-Core Policies(GCoP)と呼びます。そこでは、ガイドモデルが構造化された戦略を生成し、その戦略をブラックボックスのコアモデルが実行します。この抽象化は、ベース、教師あり、およびアドバイザー型のアプローチを包含します。これらは主に、ガイドの学習方法の違いによって区別されます。私たちは、コストに配慮した効用目的のもとで GCoP を形式化し、エンドツーエンドの性能が、ガイド平均化された実行可能性(guide-averaged executability)によって支配されることを示します。これは、ガイドが生成した戦略がコアによって忠実に実行可能である確率です。分析の結果、既存の GCoP の具体化はしばしば、デプロイ時の制約のもとで実行可能性を最適化できていないことがわかり、その結果、脆い(brittle)戦略と非効率な計算が生じます。これらの洞察に動機づけられ、私たちは ExecTune という原理に基づく学習レシピを提案します。そこでは、教師ありによる受け入れサンプリング(teacher-guided acceptance sampling)、教師あり微調整(supervised fine-tuning)、および構造を意識した強化学習を組み合わせ、構文的妥当性、実行の成功、コスト効率を直接的に最適化します。数学的推論およびコード生成のベンチマークにおいて、ExecTune による GCoP は、従来の最先端ベースラインに比べて最大 9.2% 精度を向上させつつ、推論コストを最大 22.4% 削減します。これにより Claude Haiku 3.5 は、数学タスクとコードタスクの両方で Sonnet 3.5 を上回ることができ、さらにコストを 38% 下げた状態で Sonnet 4 と絶対精度で 1.7% 以内に迫ります。効率性に加えて、GCoP はコアを再学習することなくガイドを更新することで、モジュール型の適応もサポートします。
ExecTune:ガイドモデルによるブラックボックスLLMの効果的なステアリング
arXiv cs.LG / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ブラックボックスAPI経由でLLMを使う際に推論コストが学習コストを上回りやすいという課題に対し、ガイドモデルが戦略(中間表現)を生成し、コアLLMがそれを実行する「Guide-Core Policies(GCoP)」という枠組みを整理しています。
- GCoPの性能は、ガイドが生成した戦略がコアで忠実に実行できる確率(guide-averaged executability)に強く支配されることを理論的に示し、従来手法が実行可能性を十分に最適化できておらず脆い戦略や非効率な計算が起きると指摘しています。
- これを踏まえて提案された訓練レシピがExecTuneで、受理サンプリング付きのteacher-guided手法、構造に配慮した強化学習、そして教師あり微調整を組み合わせ、構文妥当性・実行成功・コスト効率を同時に最適化します。
- 数学・コード生成ベンチマークで、ExecTuneを用いたGCoPが先行手法に対して最大9.2%の精度向上と最大22.4%の推論コスト削減を達成し、さらにClaude Haiku 3.5がSonnet 3.5を上回るなど、同じコアを保持したままガイド更新でモジュール的適応も可能だと報告しています。




