Libra-VLA:非同期の粗視点から精密化へのデュアルシステムで学習の均衡を達成

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の多くのVision-Language-Action(VLA)ロボティクスモデルが、意味から高頻度な運動指令へを直接対応させる単一的な生成を採用しており、その結果としてセマンティクスとアクチュエーションのギャップが拡大していると指摘しています。
  • 提案手法Libra-VLAは、粗視点から精密化へ進むデュアルシステムであり、ロボットの動作を「離散的なマクロ方向トークン(セマンティック計画)」と「連続的なマイクロ姿勢の整合(アクション・リファイン)」に分解します。
  • セマンティック・プランナーとアクション・リファイナーの間で学習難度を意図的に釣り合わせることで、分解の粒度が学習の均衡点に合致したときに性能が「逆U字」の形で最大化されることを見出しています。
  • さらに非同期設計により、モジュール構造を活かしてオープンワールドの操作に対してスケーラブルで頑健、かつ応答性の高い解決策を提供すると述べています。

要旨: Vision-Language-Action(VLA)モデルは、高水準のセマンティック指示を実行可能な物理的行動へと基礎づけることで、汎用ロボット操作を実現する有望なパラダイムである。しかし、従来のアプローチの多くは、単一の生成パラダイムを採用しがちであり、視覚・言語の特徴を高周波の運動コマンドへと、階層性のない平坦な形で直接対応づけている。この戦略は、ロボット操作に内在する階層性を見落としている。ロボット操作では、複雑な行動は、離散的なマクロ方向への到達と、連続的な姿勢の微調整へと分解することで、Hybrid Action Spaceとして自然にモデル化できる。ところが、このことはセマンティックとアクチュエーションのギャップを大幅に広げ、高水準セマンティクスを連続的な行動へ基礎づけるための表現上の負担を重くしてしまう。これに対処するため、我々は新たなCoarse-to-Fine Dual-System VLAアーキテクチャであるLibra-VLAを提案する。我々は学習の複雑さを、粗い〜細かい階層へ明示的に分離することでトレーニングの均衡を達成すると同時に、この構造的なモジュール性を活用して非同期実行戦略を実装する。セマンティック・プランナーは、マクロ方向の意図を捉える離散的なアクショントークンを予測し、一方でアクション・リファイナーは粗い意図を条件として、高周波の連続的な行動を生成し、精密なアライメントを行う。重要な点として、我々の実験的分析により、性能は行動分解の粒度に対して反転U字型の曲線に従い、2つのサブシステム間で学習の難しさがちょうど釣り合うときに最大値が得られることが明らかになった。さらに非同期設計により、本手法はオープンワールド操作に対して、スケーラブルで頑健かつ応答性の高い解決策を提供する。