KERV：身体化VLAモデル向けの運動学で矯正する推測デコーディング（Kinematic-Rectified Speculative Decoding）

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、トークン領域のVision-Language-Action（VLA）モデルに対し、運動学領域での予測を組み合わせることで推論を高速化する「KERV」という枠組みを提案している。
きわめてコストの高い再推論を避けることを狙い、運動学ベースのカルマンフィルタで行動を予測し、推測デコーディングのトークン誤りを補償する。
推測デコーディングの受理（acceptance）閾値を運動学に基づいて動的に修正する戦略を設計し、閾値設定の難しさを緩和している。
複数のタスクと環境での実験により、KERVは成功率のほぼ低下なしに27%〜37%の加速を達成したことが示されている。

note

note

note

note

note