HeiSD:運動学的な認識を備えた組込み視覚言語行動モデルのためのハイブリッド推測デコーディング

arXiv cs.RO / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 視覚言語行動(VLA)モデルはロボット制御で主流になりつつある一方、推論が遅いという課題があり、加速手法としてSpeculative Decoding(SD)が注目されています。
  • SDには「drafter-based」と「retrieval-based」の2系統があり、それぞれ強みと弱みが補完的であるため、両者を組み合わせたハイブリッド化が有効ではないかという仮説が提示されています。
  • しかしVLAでのハイブリッドSD実装には、リトリーバル側での下書き拒否や継続的な誤り、さらにハイブリッド境界の決定が難しいといった課題があると分析されます。
  • これらに対処するため、HeiSDは「verify-skip」や「sequence-wise relaxed acceptance」に基づくリトリーバルベース最適化、さらに運動(kinematic)を用いた融合評価指標でハイブリッド境界を自動決定する枠組みを提案しています。
  • 実験ではHeiSDがシミュレーションで最大2.45倍、実環境で2.06〜2.41倍の速度向上を達成しつつ、高いタスク成功率を維持したと報告されています。

要旨: Vision-Language-Action(VLA)モデルはロボット制御の主流解として普及してきた一方で、推論速度が遅いという課題があります。推測デコーディング(Speculative Decoding; SD)は有望な加速手法であり、ドラフター(下書き)ベースのSDとリトリーバル(検索)ベースのSDの2つのカテゴリに大別できます。これら2つの手法は、VLAモデルに適用した場合に相補的な利点と制約を示し、その結果として、この2つの手法を統合したハイブリッドアプローチがより良い性能をもたらすという仮説が成り立ちます。本論文では、まずハイブリッド利用の利点と実現可能性を明らかにするために、詳細な一連の分析を行います。しかし、上述の重要な洞察が得られたとしても、VLAモデルにおいてハイブリッドSDを実装するにはいくつかの課題があります:(1)リトリーバルベースのSDにおける下書きの拒否と、持続的な誤り。(2)ハイブリッドの境界を定めることの難しさ。これらに対処するため、HeiSDフレームワークを提案します。HeiSDでは、検証スキップ機構と、シーケンスごとに緩和した受容戦略を含む、リトリーバルベースのSD最適化手法を提案します。さらに、HeiSDにおいて、運動学に基づく融合メトリクスを提案し、ハイブリッドの境界を自動的に決定します。実験結果は、HeiSDがシミュレーションのベンチマークで最大2.45倍の加速を達成し、実世界のシナリオでは2.06倍〜2.41倍の加速を達成しつつ、高いタスク成功率を維持することを示しています。