ExecTune: Effective Steering of Black-Box LLMs with Guide Models
arXiv cs.LG / 4/14/2026
📰 NewsIdeas & Deep AnalysisModels & Research
Key Points
- 本論文は、ブラックボックスAPI経由でLLMを使う際に推論コストが学習コストを上回りやすいという課題に対し、ガイドモデルが戦略(中間表現)を生成し、コアLLMがそれを実行する「Guide-Core Policies(GCoP)」という枠組みを整理しています。
- GCoPの性能は、ガイドが生成した戦略がコアで忠実に実行できる確率(guide-averaged executability)に強く支配されることを理論的に示し、従来手法が実行可能性を十分に最適化できておらず脆い戦略や非効率な計算が起きると指摘しています。
- これを踏まえて提案された訓練レシピがExecTuneで、受理サンプリング付きのteacher-guided手法、構造に配慮した強化学習、そして教師あり微調整を組み合わせ、構文妥当性・実行成功・コスト効率を同時に最適化します。
- 数学・コード生成ベンチマークで、ExecTuneを用いたGCoPが先行手法に対して最大9.2%の精度向上と最大22.4%の推論コスト削減を達成し、さらにClaude Haiku 3.5がSonnet 3.5を上回るなど、同じコアを保持したままガイド更新でモジュール的適応も可能だと報告しています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to
Bit of a strange question?
Reddit r/artificial

One URL for Your AI Agent: HTML, JSON, Markdown, and an A2A Card
Dev.to

One URL for Your AI Agent: HTML, JSON, Markdown, and an A2A Card
Dev.to