KERV:身体化VLAモデル向けの運動学で矯正する推測デコーディング(Kinematic-Rectified Speculative Decoding)

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トークン領域のVision-Language-Action(VLA)モデルに対し、運動学領域での予測を組み合わせることで推論を高速化する「KERV」という枠組みを提案している。
  • きわめてコストの高い再推論を避けることを狙い、運動学ベースのカルマンフィルタで行動を予測し、推測デコーディングのトークン誤りを補償する。
  • 推測デコーディングの受理(acceptance)閾値を運動学に基づいて動的に修正する戦略を設計し、閾値設定の難しさを緩和している。
  • 複数のタスクと環境での実験により、KERVは成功率のほぼ低下なしに27%〜37%の加速を達成したことが示されている。