貪欲は強力なデフォルト：反復的最適化としてのエージェント

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、古典的なランダムな候補提案ステップを、評価診断を用いてより良い候補を提案するLLMエージェントに置き換え、反復的な最適化ループとして実装している。
4つの離散・混合・連続の最適化タスクにまたがる実験では、早期停止付きの貪欲なヒルクライミングが、より複雑な構成と同等かそれ以上の性能を示しつつ、評価回数を大幅に少なくできることがわかった。
タスク横断のアブレーションにより、シミュレーテッド・アニーリング、並列の調査者、別のLLMモデル（OpenAI Codex）の使用はいずれも成果を改善せず、評価コストを約2〜3倍増やすだけであることが示された。
結果は、LLMが学習した事前分布（prior）が十分に強く、洗練された受理ルールは限定的な価値しか持たないことを示しており、特にround 1が得られた改善の大部分を占めることが多い。
性能面に加えて、このアプローチは解釈可能な出力をもたらし得る。例えば、確立した細胞病理学（サイトパソロジー）の概念を反映したがん分類ルールなどが挙げられる。