圧縮ギャップ：離散トークン化がビジョン・言語・行動モデルのスケーリングを制限する理由

arXiv cs.RO / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、視覚エンコーダの改善によるVision-Language-Action（VLA）モデルのスケーリングは視覚言語タスクには有効である一方、行動が離散トークンとして表現される場合の視覚モータ（ビジュオモータ）行動パイプラインでは失敗し得ると主張する。
情報理論的な「圧縮ギャップ（Compression Gap）」原理を導入する。すなわち、性能のスケーリングは、能力を一様に増やすことではなく、視覚モータ・パイプラインにおける最も厳しい情報ボトルネックによって制限される。
行動が連続的（例：Diffusion Policy）な場合、視覚エンコーダが結合制約（binding constraint）として働くため、エンコーダのアップグレードは操作（マニピュレーション）性能に大きな向上をもたらす。
行動が固定容量のコードブックによって離散化される場合（例：OAT）、コードブックが結合制約となるため、そのボトルネックを超えてエンコーダの改善が意味のある形で伝播しない。
LIBEROベンチマークでの実験により、(1) エンコーダアップグレードの因子実験、(2) 4種類のエンコーダにまたがるエンコーダ品質の勾配、(3) コードブック容量を変化させる実験において、コードブック容量を増やすことでエンコーダ改善への感度が部分的に回復することが示される。