Vision-Language-Actionモデルにおける推論時のAdaptive Action Chunking

arXiv cs.RO / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision-Language-Action(VLA)ロボティクスにおける重要な制約、すなわち推論時の固定されたアクション・チャンクサイズが、新しい情報への応答性とタスク間での一貫性とのトレードオフになる点を指摘している。
  • 推論時のAdaptive Action Chunking(AAC)を提案し、現在の予測から得られるアクションエントロピーを用いて、推論中に動的にチャンクサイズを選択する。
  • 著者らは、シミュレーションおよび実環境のロボットによるマニピュレーション課題の両方にまたがる広範な実験結果を報告しており、最先端のベースラインに比べて大幅に性能が向上することを示している。
  • 本研究では、コミュニティによるさらなる評価と再現を可能にする公開の動画およびソースコードを含めている。