私はLLM-guided進化的最適化(AlphaEvolve/FunSearchパラダイム)を、より安価でアクセスしやすくする取り組みを進めてきました。その結果がLEVIです。
コアとなる主張は単純です。この領域の多くのフレームワークは最先端モデルへのアクセスを前提とし、それを中心に探索アーキテクチャを構築しています。私はこれが逆だと思います。ハーネス(より良い多様性の維持、より賢いモデル割り当て)に投資すれば、30Bモデルが作業の90%以上を担うことで、同じかそれ以上の結果を得られます。
このアプローチを機能させる2つのアイデア:
階層的モデル割り当て。 安価なモデル(Qwen 30B)がほとんどの突然変異を処理します。 高価なモデルは、実際に創造性が必要な稀なパラダイムシフトのときだけ呼び出されます。進化プロセス自体は盲目です。FunSearchは約30Bモデルで100万回の突然変異を超えるキャップセットの結果を達成しました。ブレークスルーを生み出すのは生粋のモデル知能ではなく、盲目な探索の累積です。
指紋ベースのCVT-MAP-Elites。 構造的多様性(OpenEvolve)と性能ベースの多様性(GEPAのパレートフロント)のどちらかを選ぶ代わりに、両方を単一の行動指紋の次元として用います。セントロイドは構造的に多様なシードからノイズ摂動を加えて初期化されるため、アーカイブは初期の戦略に過剰適合することも、プログラムが決して訪れない領域にスペースを浪費することもありません。
結果:
UCバークレー ADRS ベンチマーク(実世界の7つのシステム問題:クラウドスケジューリング、ロードバランシング、SQL最適化など)で:
| 課題 | LEVI | 最良の競合 | コスト削減 |
|---|---|---|---|
| Spot Single-Reg | 51.7 | GEPA 51.4 | 6.7倍安価 |
| Spot Multi-Reg | 72.4 | OpenEvolve 66.7 | 5.6倍安価 |
| LLM-SQL | 78.3 | OpenEvolve 72.5 | 4.4倍安価 |
| Cloudcast | 100.0 | GEPA 96.6 | 3.3倍安価 |
| Prism | 87.4 | 同点 | 3.3倍安価 |
| EPLB | 74.6 | GEPA 70.2 | 3.3倍安価 |
| Txn Scheduling | 71.1 | OpenEvolve 70.0 | 1.5倍安価 |
LEVIは主にQwen 30Bを使用しているにもかかわらず、AlphaEvolveのサークルパッキングスコアにも勝っています。
私が最も興味深いと感じる部分は、コントロールされた比較です。同じモデル(Qwen3-30B-A3B)、同じ予算(750回の評価)、3つのシード。LEVIはOpenEvolveやGEPAがいずれも到達できなかった100回の評価以内でスコアに到達します。したがって、利得は探索アーキテクチャに由来し、単により大きなモデルを投入することではありません。
ブログ: ttanv.github.io/levi
アーキテクチャ、多様性メカニズム、またはコスト内訳について喜んで議論します。再投稿をお詫びします。前回はフレアを間違えて使用しました。