自己改善型VLAのための反省(リフレクション)ベースのタスク適応

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間の介入なしに、事前学習済みのVision-Language-Action(VLA)ロボットがその場で迅速かつ自律的にタスク適応するための枠組み「Reflective Self-Adaptation(反省的自己適応)」を提案する。
  • 二重経路アプローチを用いる。すなわち、VLM(Vision-Language Model)で失敗を分析し、より速い方策探索のための密な報酬信号を合成する「失敗駆動の反省型強化学習(Reflective RL)」経路である。
  • 「報酬ハッキング」を抑制するために、「成功駆動の品質ガイド付きSFT」経路を追加し、質の高い成功軌跡を選択的に模倣することで、タスクの全体的な成功に学習を根付かせる。
  • 条件付きカリキュラム機構を用いて初期の探索を支援し、適応中のエージェントの信頼性を向上させる。
  • 困難な操作タスクに関する実験により、代表的なベースラインよりも収束が速く、最終的な成功率が高いことが示される。