長短期反省と最適化によるロボット操作のための進化可能な身体化エージェント

arXiv cs.RO / 2026/4/16

📰 ニュース

要点

  • 本論文は、環境理解と方策計画を改善するために大規模な視覚言語モデル(VLM)を用いる、進化可能な身体化ロボティクスフレームワーク「EEAgent」を提案する。

Abstract

汎用ロボティクスを実現するには、ロボットが環境やフィードバックに基づいて適応し、進化できるようにする必要がある。従来の方法は、広範な学習要件、タスクをまたいだ汎化の難しさ、解釈可能性の欠如といった制約に直面している。プロンプト学習は、大規模な学習を行わずに、過去の経験を単に振り返ることで自己進化するロボットに新たな機会をもたらす。しかしながら、タスクの成功と失敗から有意義な洞察を抽出することは依然として課題である。そこで本研究では、より良い環境解釈と方策計画のために大規模な視覚言語モデル(VLM)を活用する、進化可能な身体化エージェント(EEAgent)フレームワークを提案する。過去の経験への振り返りを強化するために、長短期反省最適化(LSTRO)メカニズムを提案し、過去の経験と新たに学んだ教訓の両方に基づいてプロンプトを動的に洗練することで、継続的な自己進化を促し、それによって全体のタスク成功率を高める。VIMA-Benchの6つのタスクに対する評価により、本アプローチは新たな最先端を確立しており、特に複雑なシナリオにおいてベースラインを顕著に上回ることが示された。