2Dか3Dか:VLAモデルにおけるサリエンスを支配するのは誰か?――モダリティのサリエンス認識に基づく3段階トークンプルーニングフレームワーク
arXiv cs.RO / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2Dのみから2D+3D(MVLA)へ移行するVision-Language-Actionモデルでは生成されるトークン数が増え、その結果、身体化知能システムにおける計算需要が増大するという課題に取り組む。
- 既存のトークンプルーニング手法は、2Dモダリティと3Dモダリティのサリエンスの違いを無視しているため、MVLAには適していないと主張する。
- 著者らは、2D/3Dモダリティのサリエンスにおける不一致とダイナミクスをモデル化するための3段階の分析を導入し、それを用いてMVLA向けに調整された3段階トークンプルーニングフレームワークを構築する。
- 実験では、精度の損失を最小限に抑えつつ、最大2.55倍の推論速度向上が報告されており、追加オーバーヘッドは5.8%である。
- 著者らはコードを近日公開すると述べており、本手法は論文公開後に実運用可能になる可能性が示唆されている。




