MSACT:安定した低遅延ファインチマニピュレーションのためのマルチステージ空間アライメント
arXiv cs.CV / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文では、実環境での両腕(バイマニュアル)ファインチマニピュレーションを対象に、安定性と低遅延性を両立するための手法「MSACT」を提案している。
- MSACTはACTをベースに、マルチステージの空間注意(空間アテンション)モジュールを追加し、タスクに関連する2D注意点を抽出して将来の注意点系列を予測する。
- キーポイント注釈なしでローカライゼーションのドリフトを抑えるために、将来フレームの視覚特徴と予測した注意点系列を整合させる自己教師ありの時間的アライメント目的を導入している。
- ALOHA両腕プラットフォームでのシミュレーションおよび実機実験により、タスク成功率、注意ドリフト、推論遅延、視覚擾乱への頑健性を評価し、低遅延推論を維持しつつ安定性と性能が向上したことを示している。
- 本研究は、行動チャンク化、拡散モデル、幾何学的グラウンディング系の既存手法の間にあるトレードオフに対し、過度な計算負荷を増やさず空間的一貫性を改善することを狙っている。



