DA-PTQ: 効率的なビジョン言語アクションモデルのためのドリフト認識型ポストトレーニング量子化
arXiv cs.RO / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ビジョン・言語・アクション(VLA)モデルは、計算資源の限られたロボットへの導入に課題があり、素朴なポストトレーニング量子化(PTQ)は逐次的な制御性能を大きく損なう可能性がある。
- 本論文では、ビジョン言語からアクションへのインターフェースにおける時間方向の誤差蓄積が、運動学的ドリフト(kinematic drift)の要因であることを特定する。すなわち、量子化による微小な摂動が時間とともに段階的に増幅される。
- ドリフト認識型ポストトレーニング量子化(DA-PTQ)を提案し、量子化を、逐次的な意思決定プロセス全体にわたるドリフト認識型の最適化問題として定式化する。
- DA-PTQ は、(1)マルチモーダル表現とアクション空間の間に存在する構造化された歪みを低減するためのクロススペース表現補償、ならびに(2)軌跡レベルの運動誤差を最小化することでビット幅を選択するためのモーション駆動ミックス精度割り当て、の2つを用いる。
- 実験結果は、DA-PTQ が運動学的ドリフトを大幅に低減でき、低ビット量子化設定の下でフル精度と同等の性能に到達し得ることを示しており、効率的なロボット導入を支える。




