MSACT:安定した低遅延ファインチマニピュレーションのためのマルチステージ空間アライメント

arXiv cs.CV / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、実環境での両腕(バイマニュアル)ファインチマニピュレーションを対象に、安定性と低遅延性を両立するための手法「MSACT」を提案している。
  • MSACTはACTをベースに、マルチステージの空間注意(空間アテンション)モジュールを追加し、タスクに関連する2D注意点を抽出して将来の注意点系列を予測する。
  • キーポイント注釈なしでローカライゼーションのドリフトを抑えるために、将来フレームの視覚特徴と予測した注意点系列を整合させる自己教師ありの時間的アライメント目的を導入している。
  • ALOHA両腕プラットフォームでのシミュレーションおよび実機実験により、タスク成功率、注意ドリフト、推論遅延、視覚擾乱への頑健性を評価し、低遅延推論を維持しつつ安定性と性能が向上したことを示している。
  • 本研究は、行動チャンク化、拡散モデル、幾何学的グラウンディング系の既存手法の間にあるトレードオフに対し、過度な計算負荷を増やさず空間的一貫性を改善することを狙っている。

Abstract

現実世界での微細な操作、特に両腕(バイマニュアル)操作では、通常、低遅延の制御と安定した視覚ローカライゼーションが必要です。一方で、大規模データの収集はコストがかかり、限られたデモンストレーションではローカライゼーションのドリフトにつながる可能性があります。既存手法はそれぞれ異なるトレードオフを採用しています。例えば、ACT のようなアクション・チャンク化ポリシーは低遅延の実行とデータ効率を可能にしますが、明示的な空間的整合性なしに密な視覚特徴に依存します。拡散モデルなどの生成的手法は表現力を高めますが、反復サンプリングによる遅延が生じ得ます。視覚言語行動(vision-language-action)やボクセルベース手法は一般化と幾何学的な基盤付けを強化しますが、より高い計算コストとシステムの複雑さを要します。 本研究では、安定した 2D 注意点を抽出し、時間的アラインメント損失によって将来の注意系列を共同で予測する、マルチステージの空間注意モジュールを提案します。事前学習済み ResNet の視覚的事前知識に基づく ACT を土台として、マルチステージ注意モジュールは、行動予測のための局所的な空間モダリティとしてタスクに関連する 2D 注意点を抽出します。 一貫した対象トラッキングを維持するために、教師となるキーポイント注釈なしで、予測された注意系列を将来フレームからの視覚特徴に整合させる自己教師あり目的関数を導入し、ドリフトを抑制します。さらに、限られたデータのもとでの視覚から行動への対応の安定性を改善します。 ALOHA 両腕プラットフォーム上で実施した、シミュレーションおよび現実世界の微細操作タスクに関する実験では、タスク成功、注意ドリフト、推論遅延、視覚的な擾乱への頑健性を評価します。結果は、テスト条件下で低遅延推論を維持しながら、ローカライゼーションの安定性とタスク性能が改善することを示しています。