Abstract
本稿では、ロボットの操作を明示的に2つの異なる行動フェーズに分離するVision言語アクションフレームワークであるMove-Then-Operateを提案する。すなわち、粗い移動(move)と、接触が臨界となる相互作用(operate)である。これらの異種な状況を一体化してしまうモノリシックなポリシーとは異なり、我々のアーキテクチャは、学習可能なフェーズセレクタによってルーティングされるデュアルエキスパートのポリシーを用いることで、フェーズ固有のダイナミクスを分離する構造的な帰納バイアスを導入する。フェーズラベルは、エンドエフェクタの速度やサブタスク分解といった軽量な文脈手がかりに条件付けたMLLMベースのパイプラインによって自動生成され、人間の運動パターンとの整合性を確実にする。RoboTwin2ベンチマークで評価した結果、本手法は平均成功率68.9\%を達成し、モノリシックな\pi_0ベースラインを24%上回る。さらに、10倍多いデータで学習したモデルと同等、またはそれを上回り、学習ステップ数を40%少なくしてピーク性能に到達する。これにより、moveフェーズとoperateフェーズのアーキテクチャ的な分離は、高精度な操作を習得するうえで非常に効果的かつ効率的な戦略であることが示される。