A1: 完全に透明性のあるオープンソース、適応的かつ効率的なトランケート(打ち切り)型ビジョン・言語・アクションモデル

arXiv cs.RO / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、巨大なVLMバックボーンと拡散/フロー型のアクションヘッドによって引き起こされる高い計算コストとレイテンシコストを下げ、リアルタイムのロボット制御を可能にすることを目的としたオープンソースのVision-Language-Action(VLA)フレームワークA1を紹介する。
  • A1は、アクション生成における暗黙的なアフォーダンスの事前知識として事前学習済みVLMを用いると同時に、予算を意識した適応的な方式によりエンドツーエンド推論パイプラインも対象としている。
  • 推論時に不必要な計算を削減するために、中間のVLM層におけるアクションの一貫性を監視することで早期終了(early termination)を実装する。
  • 「Inter-Layer Truncated Flow Matching」は、層間でのデノイジングをウォームスタートし、少ないデノイジング反復で高精度なアクションを実現する。
  • シミュレーションベンチマーク(LIBERO、VLABench)および実ロボット(Franka、AgiBot)、ならびにRoboChallengeでの実験により、最先端の成功率に加えて、大幅なレイテンシとバックボーン計算量の削減(例:1エピソードあたり最大72%のレイテンシ低減、ならびに軽微な性能劣化を伴う最大76.6%のバックボーン計算量削減)を報告している。

Abstract

Vision--Language--Action(VLA)モデルは、オープンワールドのロボット操作のための強力なパラダイムとして登場してきましたが、その実用的な展開はしばしば\emph{コスト}によって制約されます。すなわち、10億規模のVLMバックボーンと、反復的な拡散/フローに基づくアクションヘッドは、高いレイテンシと計算量を要し、汎用のハードウェア上でのリアルタイム制御が高価になります。私たちは、操作の成功を犠牲にすることなく、低コストかつ高スループットな推論を実現するための、完全にオープンソースで透明性の高いVLAフレームワークA1を提案します。私たちのアプローチは、行動生成のための暗黙のアフォーダンス事前知識を提供する、事前学習済みのVLMを活用します。学習のための完全なスタック(学習コード、データ/データ処理パイプライン、中間チェックポイント、評価スクリプト)を公開し、エンドツーエンドの再現性を可能にします。VLM単体の最適化にとどまらず、A1は、バジェットに配慮した適応型推論手法を導入することで、推論パイプライン全体を対象にします。この手法は、バックボーンと\emph{アクションヘッド}の両方を同時に加速します。具体的には、中間VLM層におけるアクションの整合性を監視して早期終了をトリガーし、層間トランケート・フローマッチング(Inter-Layer Truncated Flow Matching)を提案します。これは、層をまたいだデノイズをウォームスタートし、実効的なデノイズ反復回数を大幅に減らしながら、正確なアクションを実現できるようにします。シミュレーションベンチマーク(LIBERO、VLABench)および実機ロボット(Franka、AgiBot)において、A1は最先端の成功率を達成しつつ、推論コストを大幅に削減します(例:フローマッチング推論でエピソードあたりのレイテンシを最大72%低減、また小さな性能低下でバックボーン計算を最大76.6%削減)。RoboChallengeでは、A1は平均成功率29.00%を達成し、pi0(28.33%)、X-VLA(21.33%)、RDT-1B(15.00%)を含むベースラインを上回ります。