AdaptEvolve：適応的なモデル選択により進化型AIエージェントの効率を改善する

arXiv cs.CL / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文は、推論中にLLMを繰り返し呼び出す進化型AIエージェントにおいて、計算効率と推論能力のトレードオフをどう両立するかを扱っています。
提案手法AdaptEvolveは、進化的なリファインメントの各ステップで、生成時の信頼度（confidence）を用いてその時点での解けやすさ（solvability）を推定し、複数のLLMを動的に選択します。
既存の静的なルーティング（ヒューリスティックや外部コントローラ）と比べて、この手法はモデルの不確実性を明示的に考慮できる点が特徴です。
実験では、推論コストを平均37.9%削減しつつ、静的に大規模モデルを使うベースラインの精度の97.5%を維持でき、効率と精度の両立に有利なパレートフロンティアが得られたと報告しています。
実装コードは、示されたGitHubリンクで公開されており、再現性と追加検証に利用できます。

要旨: 遺伝的エージェント型システムは、推論中に大規模言語モデル（LLM）を繰り返し呼び出すことで、計算効率と推論能力のトレードオフを強めます。この設定は中核となる問いを提起します。すなわち、エージェントは、現在の生成ステップに対して十分な能力を備えつつ、計算コストを効率的に保つために、LLMをどのように動的に選択できるのでしょうか。モデル・カスケードはこのトレードオフを調整するための実用的な仕組みを提供しますが、既存のルーティング戦略は一般に静的なヒューリスティック、または外部コントローラに依存しており、モデルの不確実性を明示的に考慮していません。そこで本研究では、AdaptEvolve：遺伝的逐次洗練の枠組みの中で、多数のLLMによる進化的洗練を行うための適応的LLM選択を提案します。この枠組みでは、内在的な生成の確信（confidence）を活用してリアルタイムの解決可能性を推定します。実験結果から、確信に基づく選択は好ましいパレートフロンティアをもたらし、静的な大規模モデル基準の上限精度の97.5%を維持しながら、ベンチマーク全体で平均37.9%の総推論コスト削減を実現することが示されました。コードは https://github.com/raypretam/adaptive_llm_selection で公開しています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

北里柴三郎って、絶対5000円の顔してるじゃん。機械学習で確かめてみた。

Qiita

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

ADAMオプティマイザーの収束証明の改良

Dev.to

AdaptEvolve：適応的なモデル選択により進化型AIエージェントの効率を改善する

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

北里柴三郎って、絶対5000円の顔してるじゃん。機械学習で確かめてみた。

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

北里柴三郎って、絶対5000円の顔してるじゃん。機械学習で確かめてみた。

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力