概要: 身体化エージェントは、エージェント自体を書き換えるのではなく、実行可能な能力を更新することで、時間の経過とともに改善することがますます期待されています。先行研究では、能力のモジュール化されたパッケージング、能力の進化、実行時のガバナンスをそれぞれ個別に扱ってきました。しかし、重要なシステム課題として、身体化された能力モジュールが新しいバージョンへ進化した後、ホスティングシステムは、ポリシー制約、実行の前提、または復旧の保証を壊さずに、それをどのように安全にデプロイできるのか、という点が十分に調査されていません。
私たちは、身体化エージェントにおけるガバナンス付き能力進化を、第一級のシステム問題として定式化します。すべての新しい能力バージョンを、即時に実行可能な置き換えではなく、ガバナンス付きのデプロイ候補として扱う、ライフサイクルを意識したアップグレードの枠組みを提案します。この枠組みは、4つのアップグレード互換性チェック――インターフェース、ポリシー、行動(behavioral)、および復旧(recovery)――を導入し、それらを、候補の検証、サンドボックス評価、シャドーデプロイ、ゲート付きアクティベーション、オンライン監視、ロールバックからなる段階的な実行パイプラインとして整理します。
私たちは、15個のランダムシードに対して6ラウンド以上の能力アップグレードを評価します。単純なアップグレードではタスク成功率は72.9%に達するものの、最終ラウンドまでに不安全なアクティベーションが60%まで増加します。ガバナンス付きアップグレードでは、成功率は同程度(67.4%)に保たれつつ、すべてのラウンドで不安全なアクティベーションがゼロのまま維持されます(Wilcoxon p=0.003)。シャドーデプロイは、サンドボックス評価だけでは見えないリグレッションが40%存在することを示し、ロールバックは、アクティベーション後のドリフトに関するシナリオの79.8%で成功します。
身体化エージェントのための統治された能力進化:安全なアップグレード、互換性チェック、身体化能力モジュールのランタイム・ロールバック
arXiv cs.RO / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は身体化エージェントにおけるシステム上のギャップを扱う:進化した実行可能な能力モジュールを、ポリシーに違反せず、実行の前提を壊さず、かつ回復(リカバリ)の保証を失わずに、安全に展開する方法である。
- 新しい能力バージョンを統治された展開候補として扱う、ライフサイクルに配慮した「統治された能力進化(governed capability evolution)」の枠組みを提案する。この枠組みは、候補のバリデーション、サンドボックス評価、シャドウ展開、ゲート付きアクティベーション(段階的な有効化)、オンライン監視、ロールバックといった段階的なランタイム手順を用いる。
- 本枠組みでは、安全でない、または不互換なアクティベーションを防ぐために、4種類のアップグレード互換性チェック(インターフェース、ポリシー、行動(挙動)、回復)を定義する。
- 6つのアップグレード・ラウンドと15のランダムシードにまたがる実験では、単純なアップグレードはタスク成功率が72.9%に達する一方で、安全でないアクティベーションが60%まで上昇してしまう。これに対し、統治されたアップグレードはタスク成功率を同程度(67.4%)に保ちつつ、安全でないアクティベーションを通期でゼロに抑える(Wilcoxon p=0.003)。
- シャドウ展開は、サンドボックス評価だけでは見逃される退行(回帰)を約40%発見し、ロールバックはアクティベーション後のドリフト事例の79.8%を成功裏に処理する。




