ACG: フローベースのビジョン・ランゲージ・アクション・モデルのための行動コヒーレンス指針

arXiv cs.RO / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、模倣学習を用いる際に、視覚・言語・行動(VLA)ロボット方策の行動のコヒーレンスを改善することを目的とした、学習不要のテスト時ガイダンス手法であるAction Coherence Guidance(ACG)を提案する。

要旨: 拡散モデルおよびフローマッチング(flow matching)モデルは、強力なロボットの方策として登場し、Vision-Language-Action(VLA)モデルが多様なシーンや指示にまたがって汎化できるようになってきました。しかし、模倣学習(imitation learning)によって訓練すると、それらの高い生成能力が、人間のデモンストレーションに含まれるノイズに敏感になります。つまり、ぎくしゃくした動き(jerks)、停止(pauses)、ジッター(jitter)などにより、行動(アクション)の一貫性が損なわれます。行動の一貫性の低下は、配備時に不安定性や軌道ドリフトを引き起こし、精密さが重要となる微細な操作(fine-grained manipulation)では致命的な失敗につながります。本論文では、VLAモデル向けのAction Coherence Guidance(ACG)を提案します。これは、訓練を行わないテスト時のガイダンス手法であり、行動の一貫性を改善することで性能向上をもたらします。RoboCasa、DexMimicGen、そして実世界のSO-101タスクで評価したところ、ACGは多様な操作タスクにおいて一貫して行動の一貫性を改善し、成功率を押し上げました。コードおよびプロジェクトページは、それぞれ https://github.com/DAVIAN-Robotics/ACG および https://DAVIAN-Robotics.github.io/ACG で利用可能です。