要旨: 近年の自律エージェントは目覚ましい能力を示していますが、主として手作業でスクリプト化されたワークフローや、手作りのヒューリスティックに依存しており、そのことが本質的に、開かれた形での改善の可能性を制限しています。これに対処するため、我々は Escher-Loop を提案します。これは完全にクローズドループ(閉ループ)な枠組みであり、2つの異なる集団の相互進化を実運用化します。具体的には、具体的な問題を解くタスクエージェント(Task Agents)と、タスクエージェントと自身の両方を再帰的に改良するオプティマイザエージェント(Optimizer Agents)です。この自己言及的な進化を維持するために、動的なベンチマーク手法を提案します。この手法では、新たに生成されたタスクエージェントの経験的スコアを、相対的な勝敗(勝ち負け)信号としてシームレスに再利用し、オプティマイザのスコアを更新します。この仕組みは、タスクエージェントの進化そのものを本質的な信号として活用し、追加のオーバーヘッドなしにオプティマイザの評価と洗練を導きます。数学的最適化問題に関する経験的評価により、Escher-Loop は静的なベースラインの性能上限を効果的に押しのけ、同一の計算資源条件のもとで、評価した全タスクにおける最高の絶対ピーク性能を達成することが示されています。さらに驚くべきことに、オプティマイザエージェントが、高性能なタスクエージェントの要求が変化するのに合わせて、自ら戦略を動的に適応させる様子が観察されます。これが、システムの継続的な改善と、終盤における優れた性能を説明しています。
エッシャー・ループ:クローズドループによる自己言及的最適化を通じた相互進化
arXiv cs.AI / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、「エッシャー・ループ」として、タスクエージェントとオプティマイザエージェントが相互に進化する“完全クローズドループ”の枠組みを提案し、手作業のワークフローや人手のヒューリスティックに依存する自律エージェントの限界を超える改善を目指します。
- 新しく生成されたタスクエージェントの経験的な勝敗(win/loss)スコアを、そのまま相対的な信号としてオプティマイザのスコア更新・改良に再利用する動的ベンチマーク手法を提案し、追加オーバーヘッドを抑えます。
- 数学的最適化問題での実験では、エッシャー・ループが静的ベースラインの性能上限を超え、計算量を揃えた条件で評価タスク全体の中で最高の絶対ピーク性能を達成したことが示されます。
- さらに、強いタスクエージェントが要求を変化させるにつれて、オプティマイザエージェントが戦略を動的に適応し、継続的な改善と終盤の優れた性能につながることが観察されます。
- 総じて、自己言及的な評価・改良のループが、別途高コストな評価パイプラインを用いずにエージェントの行動を継続的に高め得る可能性を示しています。

