SpaceMind:自律的な軌道上サービスを実現するための、モジュール式で自己進化する身体性(Embodied)ビジョン・言語エージェントの枠組み

arXiv cs.RO / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文では、軌道上サービスの自律運用に必要な3D知覚・推論・長期の多段階タスク実行に向けた、モジュール式の「自己進化」身体性ビジョン・言語エージェント枠組みSpaceMindを提案する。
  • SpaceMindは、(1) 動的ルーティング付きスキルモジュール、(2) 設定可能なプロファイルを備えたMCPツール、(3) 注入型の推論モード・スキルという3つの独立拡張可能な次元にシステムを分解する。
  • MCP-Redisのインターフェース層により、UE5シミュレーションと物理ラボ/ロボット実機の間で同一コードベースを変更なしに動かせるため、環境間移植の負担を小さくする。
  • 厳しい劣化条件を含む多数の検証(閉ループ192回、5機の衛星、複数のタスク種別、2環境)では、通常条件でナビゲーション成功率90〜100%を達成し、劣化下の探索・接近タスクでは「Prospectiveモード」が他モードに先行して成功すると報告する。
  • スキル自己進化により、モデルの追加微調整なしで経験を永続的なスキルファイルへ蒸留し、失敗からの回復(複数グループ)やスコア改善、さらにゼロコード変更で物理ロボットのランデブー成功率100%を実世界で確認した。

Abstract

自律的な軌道上保守には、視覚センサーを通じて状況を認識し、3Dの空間状況について推論し、長い時間幅にわたって多段階のタスクを実行できる、身体性を備えたエージェントが必要です。私たちはSpaceMindを提案します。これは、知識・ツール・推論を3つの独立して拡張可能な次元へ分解する、モジュール型かつ自己進化型の視覚言語モデル(VLM)エージェントの枠組みです。その3次元とは、動的ルーティングを備えたスキルモジュール、設定可能なプロファイルを持つModel Context Protocol(MCP)ツール、そして注入可能な推論モード・スキルです。MCP-Redisのインターフェース層により、同一のコードベースを修正なしでシミュレーションと物理ハードウェアの両方で動作させることができます。また、Skill Self-Evolution(スキル自己進化)機構により、モデルの微調整を行わずに、運用経験を永続的なスキルファイルへ蒸留します。私たちは、5機の衛星、3種類のタスク、2つの環境(UE5シミュレーションと物理ラボ)にまたがる、閉ループ実行192回によってSpaceMindを検証しました。頑健性をストレステストするため、意図的に劣化した条件も含めています。通常条件では、すべてのモードがナビゲーション成功率90--100%を達成します。劣化条件下では、Prospectiveモードのみが、他のモードが失敗する探索・アプローチ課題において独自に成功します。自己進化の研究では、単一の失敗エピソードから6グループ中4グループでエージェントが失敗から回復し、完全な失敗(100%成功に達しないこと)を含みつつも、検査スコアが100点満点中12から59へ改善することが示されました。実環境での検証では、物理ロボットへの転移において、ゼロコード修正で、ランデブー成功率100%を達成しました。コード: https://github.com/wuaodi/SpaceMind