AnchorVLA: 効率的なエンドツーエンドのモバイルマニピュレーションのためのアンカー付き拡散

arXiv cs.RO / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AnchorVLAは、モバイルマニピュレーションで「複数の妥当な行動モデルを保ちつつ、実行中は高い反応性を維持する」という課題に対し、拡散ポリシーを効率化する方針を示している。
  • 全体の反復デノイジングを毎ステップ行うコストを避けるため、アンカートラジェクトリ近傍でローカルにのみデノイジングする“anchored diffusion”と、短縮した拡散スケジュールを採用して推論遅延を低減している。
  • Action chunkingによる部分的なオープンループ性が原因のドリフトに対して、テスト時セルフコレクション(軽量残差補正モジュール)で高周波の1ステップ調整を入れ、ロールアウトの安定性を高めている。
  • 複数のモバイル操作タスクおよび攪乱・分布シフト条件で、成功率と安定性を改善しつつ低レイテンシ推論を維持することが報告されている。

要旨: モバイル操作(モバイル・マニピュレーション)における中心的な課題は、実行中に反応性を維持しつつ、複数のもっともらしい行動モデルを保持することです。散らかったシーンに置かれたボトルは、多くの場合、複数の有効な方法で近づき、把持できます。堅牢な挙動には、シーンが変化していく中でも反応性を保ちながら、この行動の多様性を維持することが重要です。拡散ポリシーが魅力的なのは、単一の解に崩壊するのではなく、多峰性の行動分布をモデル化できるためです。しかし実際には、制御時に完全な反復的デノイズ(ノイズ除去)を行うことはコストが高くつきます。アクションのチャンク化は推論を償却(ならし)するのに役立ちますが、部分的なオープンループ挙動も生み出し、小さな不一致が蓄積してドリフトにつながります。本稿では、もっともらしい解のマニフォールド近傍からサンプリングを開始する場合、多様で有効な行動を取り戻すのに広範なデノイズは不要である、という中核的な洞察に基づく、モバイル操作のための拡散ベースのVLAポリシーであるAnchorVLAを提案します。AnchorVLAは、軽量なVLA適応バックボーンと、アンカー軌道の近傍で打ち切り拡散スケジュールにより局所的にデノイズを行うアンカー付き拡散アクションヘッドを組み合わせています。これにより、推論コストを抑えつつ、クローズドループ制御における多様な行動生成を維持します。重要な点として、チャンク化によって生じるドリフトを緩和するために、軽量な残差補正モジュールによるテスト時セルフコレクション機構を導入します。これにより、ロールアウト中に高頻度の、ステップごとの調整を行います。多様なモバイル操作タスクにおいて、AnchorVLAは擾乱や分布シフト下で成功率と安定性を向上させながら、低遅延の推論を維持します。ソースコードは https://github.com/jason-lim26/AnchorVLA で公開されています。