Move-Then-Operate：人に似たロボット操作のための行動フェージング

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ロボット操作を「移動（move）」と「接触が重要な相互作用（operate）」の2つの段階に明示的に分割する、ビジョン言語アクションフレームワーク「Move-Then-Operate」を提案している。
単一のモノリシック方策ではなく、学習可能なフェーズ・セレクタでルーティングするデュアルエキスパート方策により、フェーズごとのダイナミクスを分離して学習の構造的な誘導バイアスを与える。
フェーズラベルはMLLMベースのパイプラインで自動生成され、エンドエフェクタの速度やサブタスク分解といった軽量な文脈手がかりを用いて、人の運動パターンとの整合を高めている。
RoboTwin2ベンチマークでは平均成功率68.9%を達成し、モノリシック基線より24%上回り、10倍のデータで学習したモデルと同等以上の性能を、学習ステップ40%削減で実現した。

Abstract

本稿では、ロボットの操作を明示的に2つの異なる行動フェーズに分離するVision言語アクションフレームワークであるMove-Then-Operateを提案する。すなわち、粗い移動（move）と、接触が臨界となる相互作用（operate）である。これらの異種な状況を一体化してしまうモノリシックなポリシーとは異なり、我々のアーキテクチャは、学習可能なフェーズセレクタによってルーティングされるデュアルエキスパートのポリシーを用いることで、フェーズ固有のダイナミクスを分離する構造的な帰納バイアスを導入する。フェーズラベルは、エンドエフェクタの速度やサブタスク分解といった軽量な文脈手がかりに条件付けたMLLMベースのパイプラインによって自動生成され、人間の運動パターンとの整合性を確実にする。RoboTwin2ベンチマークで評価した結果、本手法は平均成功率

68.9\%

を達成し、モノリシックな

\pi_0

ベースラインを24%上回る。さらに、10倍多いデータで学習したモデルと同等、またはそれを上回り、学習ステップ数を40%少なくしてピーク性能に到達する。これにより、moveフェーズとoperateフェーズのアーキテクチャ的な分離は、高精度な操作を習得するうえで非常に効果的かつ効率的な戦略であることが示される。