ノイズから意図へ:残差ブリッジで生成VLAポリシーをアンカーする

arXiv cs.RO / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、認知と行動の時空間スケールの不一致という問題により、高レベルの意味的意図と低レベルの物理制御を整合させることが難しいという、体性知能の課題に取り組んでいます。
  • 「生成-from-ノイズ」方式を採る既存の生成VLAポリシーは、表現効率が悪く、最適化中の条件整合が弱くなり得ると主張しています。
  • ResVLAを提案し、「意図からの洗練(Refinement-from-Intent)」へパラダイムを切り替えます。
  • スペクトル解析により、制御を決定論的な低周波のアンカー(意図)と確率的な高周波の残差(局所ダイナミクス)に分解し、予測された意図に生成をアンカーして局所挙動を残差拡散ブリッジで洗練します。
  • シミュレーションでは競争力のある性能、言語や身体化(ロボットの実体)の摂動への強い頑健性、標準基準より速い収束が示され、実世界ロボット実験でも良好な結果が得られています。

要旨: 身体化知能において、概念レベルの意味理解と低レベルの物理的制御を橋渡しすることは、認知と行動の間にある基本的な時空間スケールの不一致に起因する、継続的な課題である。既存の生成型VLAポリシーは典型的に「Noiseからの生成(Generation-from-Noise)」というパラダイムを採用しており、この不一致を無視しているため、表現の効率が悪くなり、最適化中の条件整合も弱くなる。本研究では、このパラダイムを「意図からの洗練(Refinement-from-Intent)」へと切り替えるアーキテクチャ ResVLA を提案する。ロボットの運動は自然に大域的な意図と局所的なダイナミクスへと分解できることを踏まえ、ResVLA はスペクトル解析を用いて制御を決定論的な低周波アンカーと、確率的な高周波残差にデカップルする。生成過程を予測された意図に固定することで、我々のモデルは残差拡散ブリッジを通じて局所的ダイナミクスを厳密に洗練することに専念する。大規模なシミュレーション実験の結果、ResVLA は標準的な生成ベースラインに比べて、競争力のある性能、言語およびロボット身体性に対する頑健性の高さ、そしてより速い収束を達成することが示された。さらに、実世界のロボット実験においても強い性能を示す。