EvolvingAgent:連続的ワールドモデルを備えたカリキュラム自己進化エージェントによる長期タスクの達成

arXiv cs.RO / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、EvolvingAgentという、ヒトの介入なしにオープンエンドな環境で長期(long-horizon)タスクを自律的に達成するための身体性エージェントを提案している。
  • 既存手法の2つの弱点、すなわち人が作成したカリキュラムやマルチモーダル経験への依存、そして新しいタスクに直面した際の壊滅的忘却による世界知識の更新失敗に対処する。
  • EvolvingAgentは、LLMベースのタスク計画モジュール、マルチモーダル経験を自己検証で更新するワールドモデル誘導の行動制御モジュール、タスク適応的なワールドモデル更新のために経験を選別するカリキュラム学習リフレクタの3モジュールを閉ループで構成する。
  • 実験ではMinecraftで平均成功率が最大111.74%改善し、無効な行動は6倍以上(6×超)削減され、さらにAtari環境にも一般化し、人間レベルの性能を示した。
  • まとめると、本研究は、自己計画・自己制御・自己リフレクションと、継続的なマルチモーダルのワールドモデリングを組み合わせることで、長期の身体性タスク性能を大きく引き上げられることを示している。

Abstract

オープンエンドな世界において長い時間幅(LH)のタスクを完遂することは、身体化エージェントにとって重要である一方、難しい課題です。既存の手法には2つの主要な課題があります。 (1) 人が作成したデータやキュリキュラムから得られた経験に大きく依存しており、自律的にマルチモーダル経験を更新・選択できないこと、そして (2) 新しいタスクに直面した際に壊滅的忘却の問題が起こりうるため、自律的に世界知識を更新できないことです。これらの課題を解決するため、本論文では {f EvolvingAgent} を提案します。これは、継続的な世界モデル(WM)を備えたカリキュラム自己進化エージェントであり、人の介入なしに自己計画・自己制御・自己省察によって、さまざまな環境にまたがるLHタスクを自律的に完遂できます。具体的には、EvolvingAgent は3つのモジュール、すなわち i) 経験駆動型タスクプランナー(LHタスクを実行可能なサブタスクへ変換するために、マルチモーダル経験とともにLLMを用いる)、 ii) WM誘導型アクションコントローラ(低レベルのアクションを生成するためにWMを活用し、マルチモーダル経験を更新する自己検証メカニズムを組み込む)、 iii) Curriculum Learning(CL)ベースのリフレクター(タスク適応型WM更新のためにマルチモーダル経験を選択する二段階のCLアルゴリズムを実装する) を含みます。プランナー・コントローラ・リフレクターのクローズドループな動的構造を構築することで、EvolvingAgent の継続的WMは、マルチモーダル経験と世界知識を自律的に更新できます。Minecraft で大規模な実験を行い、既存手法と比較しました。EvolvingAgent は、平均成功率を 111.74{ %} 改善し、無効な行動を6倍以上削減し、Atari 環境にも人間レベルの性能で汎化できることを示しました。