DA-PTQ: 効率的なビジョン言語アクションモデルのためのドリフト認識型ポストトレーニング量子化

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ビジョン・言語・アクション(VLA)モデルは、計算資源の限られたロボットへの導入に課題があり、素朴なポストトレーニング量子化(PTQ)は逐次的な制御性能を大きく損なう可能性がある。
  • 本論文では、ビジョン言語からアクションへのインターフェースにおける時間方向の誤差蓄積が、運動学的ドリフト(kinematic drift)の要因であることを特定する。すなわち、量子化による微小な摂動が時間とともに段階的に増幅される。
  • ドリフト認識型ポストトレーニング量子化(DA-PTQ)を提案し、量子化を、逐次的な意思決定プロセス全体にわたるドリフト認識型の最適化問題として定式化する。
  • DA-PTQ は、(1)マルチモーダル表現とアクション空間の間に存在する構造化された歪みを低減するためのクロススペース表現補償、ならびに(2)軌跡レベルの運動誤差を最小化することでビット幅を選択するためのモーション駆動ミックス精度割り当て、の2つを用いる。
  • 実験結果は、DA-PTQ が運動学的ドリフトを大幅に低減でき、低ビット量子化設定の下でフル精度と同等の性能に到達し得ることを示しており、効率的なロボット導入を支える。

Abstract

視覚-言語-行動モデル(VLA)は身体化AIに対して強い可能性を示しているものの、メモリおよび計算負荷が高いため、資源が限られたロボットへの実運用は依然として難題です。事後学習量子化(PTQ)は効率的な解決策を提供しますが、VLAに対してPTQをそのまま適用すると、逐次制御の過程でしばしば深刻な性能低下が生じます。私たちは、時間的な誤差の蓄積が主要因であることを特定します。具体的には、視覚-言語から行動へのインターフェースでの量子化摂動が徐々に増幅され、その結果、実行された軌道において運動学的ドリフトが生じます。この問題に対処するため、ドリフトを意識した事後学習量子化(DA-PTQ)を提案します。DA-PTQは、逐次決定過程にわたるドリフトを意識した最適化問題として量子化を定式化します。DA-PTQは2つの構成要素からなります:(1)クロススペース表現補償であり、マルチモーダル表現と行動空間の間に生じる構造化された歪みを抑制して、行動の一貫性を改善します。(2)運動に駆動された混合精度割当であり、軌道レベルの運動誤差を最小化することでビット幅を割り当てます。大規模な実験の結果、DA-PTQは運動学的ドリフトを大幅に低減し、低ビット設定下でもフル精度モデルと同等の性能を達成できることが示され、資源が限られたロボットプラットフォームへのVLAの実用的な導入を可能にします。