A1: 完全に透明性のあるオープンソース、適応的かつ効率的なトランケート(打ち切り)型ビジョン・言語・アクションモデル
arXiv cs.RO / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、巨大なVLMバックボーンと拡散/フロー型のアクションヘッドによって引き起こされる高い計算コストとレイテンシコストを下げ、リアルタイムのロボット制御を可能にすることを目的としたオープンソースのVision-Language-Action(VLA)フレームワークA1を紹介する。
- A1は、アクション生成における暗黙的なアフォーダンスの事前知識として事前学習済みVLMを用いると同時に、予算を意識した適応的な方式によりエンドツーエンド推論パイプラインも対象としている。
- 推論時に不必要な計算を削減するために、中間のVLM層におけるアクションの一貫性を監視することで早期終了(early termination)を実装する。
- 「Inter-Layer Truncated Flow Matching」は、層間でのデノイジングをウォームスタートし、少ないデノイジング反復で高精度なアクションを実現する。
- シミュレーションベンチマーク(LIBERO、VLABench)および実ロボット(Franka、AgiBot)、ならびにRoboChallengeでの実験により、最先端の成功率に加えて、大幅なレイテンシとバックボーン計算量の削減(例:1エピソードあたり最大72%のレイテンシ低減、ならびに軽微な性能劣化を伴う最大76.6%のバックボーン計算量削減)を報告している。




