要旨: 検証器なしの進化は、多様性と効率の両方によってボトルネック化されることを示します。外部からの補正がない場合、反復的な進化は狭いモードへの崩壊を加速させます。一方で、高コストのモデルを一様に使うと計算資源が無駄になり、すぐに経済的に現実的でなくなります。我々は、検証器なしの進化的推論のための統一されたマルチモデル・オーケストレーション基盤であるSqueeze Evolveを提案します。我々のアプローチは単純な原則に導かれています。それは、「限界効用が最大となる場所にモデル能力を割り当てる」ことです。より強力なモデルはインパクトの大きい段階に温存し、より安価なモデルは他の段階をはるかに低コストで担当します。この原則は、軽量さを保ちつつ、多様性とコスト効率の双方に同時に対処します。Squeeze Evolveは、オープンソース、クローズドソース、および混在するマルチモデルの導入を自然にサポートします。AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2、そしてMMMU-ProやBabyVisionのようなマルチモーダル視覚ベンチマークにわたって、Squeeze Evolveは単一モデルの進化と比べて一貫してコスト・キャパビリティのフロンティアを改善し、複数のタスクで新たな最先端の結果を達成します。実験的には、Squeeze EvolveはAPIコストを最大で約3 imesだけ削減し、固定予算での提供スループットを最大で約10 imesだけ向上させます。さらに発見(ディスカバリ)タスクにおいて、Squeeze Evolveは初の「検証器なしの進化」手法として、検証器ありの進化的手法の性能に到達し、場合によってはそれを上回ることが示されます。
Squeeze Evolve:検証器不要の進化のための統一的マルチモデル・オーケストレーション
arXiv cs.CL / 2026/4/10
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検証器不要の進化的推論が二重のボトルネックに直面することを主張している。すなわち、反復的な進化によって多様性が狭いモードへと崩れていくこと、そして一様に高コストなモデルを使うことで計算資源が無駄になり、経済的に不可能になる点である。
- 軽量なマルチモデル・オーケストレーション基盤である「Squeeze Evolve」を提案し、進化の各段階における限界効用に基づいてモデルの能力配分を行うことで、多様性を維持しつつコスト効率を高める。
- インパクトの大きい段階にはより強力(高コスト)のモデルを割り当て、影響の小さい手順はより安価なモデルへ委譲することで、有効性とコストの双方に同時に対処することを狙っている。
- 複数のベンチマーク(AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2、ならびにMMMU-Pro/BabyVisionのようなマルチモーダルの視覚タスク)において、Squeeze Evolveは単一モデルの進化に比べてコスト–能力のフロンティアを改善し、複数のタスクで新たな最先端結果を報告している。
- 実験結果として、固定予算下でAPIコストを最大約3×削減し、スループットを最大約10×向上させると主張している。また、検証器ベースの進化手法に対して、検証器不要でありながら発見(ディスカバリー)タスクで同等以上に到達すると報告されている。



