ActDistill:効率的なビジョン・ランゲージ・アクション・モデルのための、一般的なアクション誘導型自己由来蒸留

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ActDistillは、ビジョン・ランゲージ・アクション(VLA)モデルを軽量な学生モデルへ圧縮し、ロボットの推論を高速化するための、一般的な「アクション誘導型自己由来蒸留」手法として提案される。
  • このアプローチでは、十分に学習されたVLAモデルを教師として用い、さらに行動予測の階層的な進化をモデル化するためにグラフ構造化されたカプセル化を導入し、そのカプセル化された教師から派生した学生モデルを訓練する。
  • 学生モデルには動的ルータを追加し、推論時にアクション予測の要求に応じて計算経路を適応的に選択できるようにし、階層的でグラフに基づく信号を用いて教師ありで学習させる。
  • 推論時には、グラフ関連の補助コンポーネントを削除して、学生モデルが動的にルーティングされた層のみを実行できるようにすることで、計算量の削減と低遅延の双方を狙う。
  • 実験(身体化ベンチマーク)では、大規模なVLAモデルと同等、あるいはそれ以上の性能が報告されており、計算量を50%以上削減し、最大1.67×の高速化を達成している。

Abstract

最近の視覚-言語-行動(VLA)モデルは優れた柔軟性と汎化を示しているものの、ロボットによる操作への実装は、重い計算オーバーヘッドと推論レイテンシによって依然として制約されています。本研究では、既存の任意のVLAモデルの行動予測能力を軽量な対になるモデルへと移す、一般的な行動ガイド付き自己蒸留フレームワーク「ActDistill」を提案します。従来の効率化戦略が主に視覚-言語の相関を強調していたのに対し、ActDistillは行動の事前知識(action prior)を活用して知識移転とモデル圧縮を導き、VLAモデルに対する行動指向の効率化を実現します。具体的には、十分に訓練されたVLAモデルを教師として用い、行動予測の階層的な進化を明示的にモデル化するための、グラフ構造化されたカプセル化(encapsulation)戦略を導入します。グラフでカプセル化された教師から導出された生徒モデルには、さらに動的ルータを備え、階層グラフに基づく教師信号(hierarchical graph-informed supervision)によって滑らかで効率的な進化が保証されるように、行動予測の要求に応じて計算経路を適応的に選択します。推論時には、グラフ関連の補助コンポーネントは削除されるため、生徒モデルは動的にルーティングされた層のみを実行し、最小限の計算とレイテンシで高精度な行動を予測できます。身体化(embodied)ベンチマークでの実験により、ActDistillは、計算量を50%以上削減し、最大1.67倍の速度向上を達成しつつ、フルスケールのVLAモデルと同等、あるいはそれを上回る性能を示すことが確認されました。これにより、効率的な身体化知能に向けた一般的なパラダイムが確立されます。