Squeeze Evolve：検証器不要の進化のための統一的マルチモデル・オーケストレーション

arXiv cs.CL / 2026/4/10

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検証器不要の進化的推論が二重のボトルネックに直面することを主張している。すなわち、反復的な進化によって多様性が狭いモードへと崩れていくこと、そして一様に高コストなモデルを使うことで計算資源が無駄になり、経済的に不可能になる点である。
軽量なマルチモデル・オーケストレーション基盤である「Squeeze Evolve」を提案し、進化の各段階における限界効用に基づいてモデルの能力配分を行うことで、多様性を維持しつつコスト効率を高める。
インパクトの大きい段階にはより強力（高コスト）のモデルを割り当て、影響の小さい手順はより安価なモデルへ委譲することで、有効性とコストの双方に同時に対処することを狙っている。
複数のベンチマーク（AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2、ならびにMMMU-Pro/BabyVisionのようなマルチモーダルの視覚タスク）において、Squeeze Evolveは単一モデルの進化に比べてコスト–能力のフロンティアを改善し、複数のタスクで新たな最先端結果を報告している。
実験結果として、固定予算下でAPIコストを最大約3×削減し、スループットを最大約10×向上させると主張している。また、検証器ベースの進化手法に対して、検証器不要でありながら発見（ディスカバリー）タスクで同等以上に到達すると報告されている。

要旨: 検証器なしの進化は、多様性と効率の両方によってボトルネック化されることを示します。外部からの補正がない場合、反復的な進化は狭いモードへの崩壊を加速させます。一方で、高コストのモデルを一様に使うと計算資源が無駄になり、すぐに経済的に現実的でなくなります。我々は、検証器なしの進化的推論のための統一されたマルチモデル・オーケストレーション基盤であるSqueeze Evolveを提案します。我々のアプローチは単純な原則に導かれています。それは、「限界効用が最大となる場所にモデル能力を割り当てる」ことです。より強力なモデルはインパクトの大きい段階に温存し、より安価なモデルは他の段階をはるかに低コストで担当します。この原則は、軽量さを保ちつつ、多様性とコスト効率の双方に同時に対処します。Squeeze Evolveは、オープンソース、クローズドソース、および混在するマルチモデルの導入を自然にサポートします。AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2、そしてMMMU-ProやBabyVisionのようなマルチモーダル視覚ベンチマークにわたって、Squeeze Evolveは単一モデルの進化と比べて一貫してコスト・キャパビリティのフロンティアを改善し、複数のタスクで新たな最先端の結果を達成します。実験的には、Squeeze EvolveはAPIコストを最大で約 $$ 3 $ imes$ だけ削減し、固定予算での提供スループットを最大で約 $$ 10 $ imes$ だけ向上させます。さらに発見（ディスカバリ）タスクにおいて、Squeeze Evolveは初の「検証器なしの進化」手法として、検証器ありの進化的手法の性能に到達し、場合によってはそれを上回ることが示されます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/10Dailyインサイトを見る →

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

Squeeze Evolve：検証器不要の進化のための統一的マルチモデル・オーケストレーション

要点

💡 この記事が使われたインサイト

関連記事

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール