貪欲は強力なデフォルト:反復的最適化としてのエージェント
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、古典的なランダムな候補提案ステップを、評価診断を用いてより良い候補を提案するLLMエージェントに置き換え、反復的な最適化ループとして実装している。
- 4つの離散・混合・連続の最適化タスクにまたがる実験では、早期停止付きの貪欲なヒルクライミングが、より複雑な構成と同等かそれ以上の性能を示しつつ、評価回数を大幅に少なくできることがわかった。
- タスク横断のアブレーションにより、シミュレーテッド・アニーリング、並列の調査者、別のLLMモデル(OpenAI Codex)の使用はいずれも成果を改善せず、評価コストを約2〜3倍増やすだけであることが示された。
- 結果は、LLMが学習した事前分布(prior)が十分に強く、洗練された受理ルールは限定的な価値しか持たないことを示しており、特にround 1が得られた改善の大部分を占めることが多い。
- 性能面に加えて、このアプローチは解釈可能な出力をもたらし得る。例えば、確立した細胞病理学(サイトパソロジー)の概念を反映したがん分類ルールなどが挙げられる。




