HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness
arXiv cs.RO / 4/28/2026
💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
Key Points
- Vision-Language-Action(VLA)モデルはロボット制御で主流になりつつある一方、推論が遅いという課題があり、加速手法としてSpeculative Decoding(SD)が注目されています。
- SDには「drafter-based」と「retrieval-based」の2系統があり、それぞれ強みと弱みが補完的であるため、両者を組み合わせたハイブリッド化が有効ではないかという仮説が提示されています。
- しかしVLAでのハイブリッドSD実装には、リトリーバル側での下書き拒否や継続的な誤り、さらにハイブリッド境界の決定が難しいといった課題があると分析されます。
- これらに対処するため、HeiSDは「verify-skip」や「sequence-wise relaxed acceptance」に基づくリトリーバルベース最適化、さらに運動(kinematic)を用いた融合評価指標でハイブリッド境界を自動決定する枠組みを提案しています。
- 実験ではHeiSDがシミュレーションで最大2.45倍、実環境で2.06〜2.41倍の速度向上を達成しつつ、高いタスク成功率を維持したと報告されています。
Related Articles

DeepSeek V4 Released: 1.6T Parameters, 1M Context, and Floor-Shattering Prices
Dev.to

Understanding Intelligent Automation Integration: A Complete Beginner's Guide
Dev.to
AI时代开启,2025 回顾与总结
Dev.to
Building an Al food tracker and currently tackling Apple Health integration. How do you prefer your „active calories“ to be handled?
Reddit r/artificial
The New Era of GEO: How Traffic Generator AI is Changing the Game
Dev.to