AnchorRefine:軌道アンカーと残差改良に基づくシナジー操作(ビジョン・言語・行動モデル向け)

arXiv cs.RO / 2026/4/21

📰 ニュースModels & Research

要点

  • AnchorRefineは、多くのビジョン・言語・行動(VLA)ポリシーが「大域的な運動」と「局所的な修正」を単一の目的関数で同時に最適化してしまうことで、大きな動きが学習を支配し、失敗に直結しうる小さな補正信号が抑制されるという課題に対処します。
  • 提案手法は階層的フレームワークとして、粗いモーションの足場を予測する軌道アンカー・プランナと、実行段階での幾何学的・接触精度のずれを補正する残差改良モジュールにVLAの行動モデリングを分解します。
  • さらに、離散的で境界に敏感なグリッパ制御をより適切に捉えるために、意思決定を考慮したグリッパ改良メカニズムを導入しています。
  • LIBERO、CALVIN、そして実ロボット課題での実験では、回帰ベースおよび拡散ベースの両方のVLAバックボーンで一貫した改善が確認され、シミュレーション成功率で最大7.8%、実環境での成功率で18%の向上が示されています。

要旨: 精度が要求される操作には、グローバルな軌道の組織化と、局所的な実行の補正の両方が必要です。しかし、ほとんどの視覚-言語-行動(VLA)ポリシーは、単一の統一された空間内で行動を生成します。この単一的な定式化では、マクロレベルの搬送(輸送)と、マイクロレベルの微調整を同じ目的関数のもとで最適化することが強制され、その結果、大きな動作が学習を支配し、小さいものの失敗に直結する補正信号が抑制されます。これに対して、人間の操作は、グローバルな運動計画と、実行中の連続的な局所調整によって構造化されています。この原理に動機づけられ、軌道アンカーと残差の洗練(リファインメント)にVLAの行動モデリングを分解する階層型フレームワークであるAnchorRefineを提案します。アンカープランナーは粗い運動の骨組みを予測し、一方でリファインメントモジュールが、幾何学的精度と接触精度を向上させるために、実行レベルでの逸脱を補正します。さらに、把持器(グリッパー)制御の離散的で境界に敏感な性質をより適切に捉えるため、意思決定を考慮した把持器のリファインメント機構も導入します。LIBERO、CALVIN、ならびに実ロボットのタスクでの実験により、AnchorRefineが回帰ベースおよび拡散ベースの両方のVLAバックボーンを一貫して改善し、シミュレーションの成功率で最大7.8%、現実世界の成功率で18%の向上が得られることが示されます。