AI Navigate

[R] LEVI: ごく少ないコストでGEPA/OpenEvolve/AlphaEvolveを打ち負かす

Reddit r/MachineLearning / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LEVIは最先端モデルへのアクセスに依存する従来のフレームワークを上回る、ハーネス重視の低コストなLLM-guided進化的最適化アプローチを導入します。
  • 階層的モデル割り当てを用います。安価なモデル(例: Qwen 30B)が大半の変異を処理し、 高価なモデルは稀なパラダイムシフト時のみ使用されます。これにより、30Bモデルで同等または高い効率を実現します。
  • 指紋ベースのCVT-MAP-Elitesを適用して、構造的多様性と性能ベースの多様性を単一の行動指紋として結合します。早期の過適合や探索の空回りを避けるため、多様なシードセントロイドを用います。
  • UCバークレー ADRSベンチマークの実証結果は、複数の問題で6.7倍、5.6倍、4.4倍、3.3倍、1.5倍の費用削減といった顕著なコスト削減を示します。一方、LEVIは主にQwen 30Bで動作し、AlphaEvolve/OpenEvolve/GEPAと比較して競争力のあるスコアを達成します。

私はLLM-guided進化的最適化(AlphaEvolve/FunSearchパラダイム)を、より安価でアクセスしやすくする取り組みを進めてきました。その結果がLEVIです。

コアとなる主張は単純です。この領域の多くのフレームワークは最先端モデルへのアクセスを前提とし、それを中心に探索アーキテクチャを構築しています。私はこれが逆だと思います。ハーネス(より良い多様性の維持、より賢いモデル割り当て)に投資すれば、30Bモデルが作業の90%以上を担うことで、同じかそれ以上の結果を得られます。

このアプローチを機能させる2つのアイデア:

階層的モデル割り当て。 安価なモデル(Qwen 30B)がほとんどの突然変異を処理します。 高価なモデルは、実際に創造性が必要な稀なパラダイムシフトのときだけ呼び出されます。進化プロセス自体は盲目です。FunSearchは約30Bモデルで100万回の突然変異を超えるキャップセットの結果を達成しました。ブレークスルーを生み出すのは生粋のモデル知能ではなく、盲目な探索の累積です。

指紋ベースのCVT-MAP-Elites。 構造的多様性(OpenEvolve)と性能ベースの多様性(GEPAのパレートフロント)のどちらかを選ぶ代わりに、両方を単一の行動指紋の次元として用います。セントロイドは構造的に多様なシードからノイズ摂動を加えて初期化されるため、アーカイブは初期の戦略に過剰適合することも、プログラムが決して訪れない領域にスペースを浪費することもありません。

結果:

UCバークレー ADRS ベンチマーク(実世界の7つのシステム問題:クラウドスケジューリング、ロードバランシング、SQL最適化など)で:

課題 LEVI 最良の競合 コスト削減
Spot Single-Reg 51.7 GEPA 51.4 6.7倍安価
Spot Multi-Reg 72.4 OpenEvolve 66.7 5.6倍安価
LLM-SQL 78.3 OpenEvolve 72.5 4.4倍安価
Cloudcast 100.0 GEPA 96.6 3.3倍安価
Prism 87.4 同点 3.3倍安価
EPLB 74.6 GEPA 70.2 3.3倍安価
Txn Scheduling 71.1 OpenEvolve 70.0 1.5倍安価

LEVIは主にQwen 30Bを使用しているにもかかわらず、AlphaEvolveのサークルパッキングスコアにも勝っています。

私が最も興味深いと感じる部分は、コントロールされた比較です。同じモデル(Qwen3-30B-A3B)、同じ予算(750回の評価)、3つのシード。LEVIはOpenEvolveやGEPAがいずれも到達できなかった100回の評価以内でスコアに到達します。したがって、利得は探索アーキテクチャに由来し、単により大きなモデルを投入することではありません。

ブログ: ttanv.github.io/levi

コード: github.com/ttanv/levi

アーキテクチャ、多様性メカニズム、またはコスト内訳について喜んで議論します。再投稿をお詫びします。前回はフレアを間違えて使用しました。