要約: オープンワールドの具象エージェントは長期的なタスクを解決しなければならない。主なボトルネックは単一ステップの計画品質ではなく、相互作用の経験がどのように組織され、進化していくかである。これを目的として、Steve-Evolving を提案する。これは細粒度の実行診断を閉ループで二重の知識蒸留と緊密に結びつける非パラメトリックな自己進化フレームワークである。手法は三つのフェーズに従う:Experience Anchoring、Experience Distillation、Knowledge-Driven Closed-Loop Control。詳しくは、Experience Anchoring は各サブゴールの試行を固定スキーマ(前状態、行動、診断結果、後状態)を持つ構造化された経験タプルに固め、三層構造の経験空間に整理し、多次元インデックス(例:条件署名、空間ハッシュ、セマンティックタグ)とローリング要約を備えて、効率的で監査可能な想起を実現します。帰属のための十分な情報密度を確保するため、実行層は二値の結果を超える構成的な診断信号を提供します。これには状態差分の要約、列挙された故障原因、連続的な指標、停滞/ループ検出が含まれます。さらに、Experience Distillation の成功した経路は、明示的な前提条件と検証基準を備えた再利用可能なスキルへ一般化され、一方で失敗は根本原因を捉え、サブゴールとタスクの粒度の両方でリスクの高い操作を禁止する実行可能なガードレールへ蒸留されます。加えて、Knowledge-Driven Closed-Loop Control によって取得されたスキルとガードレールは LLM プランナーへ注入され、診断誘発型の局所リプランニングがオンラインでアクティブな制約を更新し、モデルパラメータの更新なしに継続的な進化プロセスを形成します。Minecraft MCU の長期的なタスク群を対象とした実験は、静的リトリーブベースラインより一貫した改善を示しました。
Steve-Evolving: 細粒度診断とデュアル・トラック知識蒸留によるオープンワールド体現型自己進化
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Steve-Evolving は、オープンワールドの体現エージェントのための非パラメトリックな自己進化フレームワークを提示し、細粒度の実行診断とデュアル・トラック知識蒸留を閉ループで緊密に結びつけます。
- エクスペリエンス・アンカーリングを導入し、サブゴールの試行を構造化された経験タプルへ変換し、継続的に更新されるローリング要約を備えた多次元で監査可能な経験空間に整理します。
- 本フレームワークは、状態差異、失敗原因、連続指標、停滞/ループ検出といったリッチで非バイナリな診断信号を提供し、エクスペリエンス蒸留を用いて成功した軌跡を再利用可能なスキルへ、失敗をガードレールへと変換します。
- 知識駆動型の閉ループ制御は、これらのスキルとガードレールを LLM プランナーへ注入し、パラメータを更新することなくオンライン再計画と継続的進化を可能にします。実験は Minecraft MCU 上で静的ベースラインより改善を示しました。




