ActDistill:効率的なビジョン・ランゲージ・アクション・モデルのための、一般的なアクション誘導型自己由来蒸留
arXiv cs.RO / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ActDistillは、ビジョン・ランゲージ・アクション(VLA)モデルを軽量な学生モデルへ圧縮し、ロボットの推論を高速化するための、一般的な「アクション誘導型自己由来蒸留」手法として提案される。
- このアプローチでは、十分に学習されたVLAモデルを教師として用い、さらに行動予測の階層的な進化をモデル化するためにグラフ構造化されたカプセル化を導入し、そのカプセル化された教師から派生した学生モデルを訓練する。
- 学生モデルには動的ルータを追加し、推論時にアクション予測の要求に応じて計算経路を適応的に選択できるようにし、階層的でグラフに基づく信号を用いて教師ありで学習させる。
- 推論時には、グラフ関連の補助コンポーネントを削除して、学生モデルが動的にルーティングされた層のみを実行できるようにすることで、計算量の削減と低遅延の双方を狙う。
- 実験(身体化ベンチマーク)では、大規模なVLAモデルと同等、あるいはそれ以上の性能が報告されており、計算量を50%以上削減し、最大1.67×の高速化を達成している。
