AI Navigate

UniCompress: 統一ビジョン-言語理解と生成のためのトークン圧縮

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • UniCompressは、統一ビジョン-言語モデルにおける視覚トークンの数を削減するプラグイン式トークン圧縮機構を導入し、画像理解と生成の両方のタスクで性能を維持します。
  • 本手法は、学習可能なグローバルメタトークンを用いて圧縮と復元を導くもので、軽量かつモジュラー設計とされ、完全な再訓練を要さず既存モデルへの統合を可能にします。
  • 実験は、トークン数を最大で4倍まで削減できることを示し、推論レイテンシと学習コストに大きな利得をもたらし、性能劣化はごく小さいことを示しています。
  • 本アプローチは、リソース制約のあるデプロイメント(例:具現化型AI)における計算量とメモリのオーバーヘッドに対処し、現実世界のマルチモーダルシステムをより実用的にします。
Abstract: 統一モデルは、画像を離散トークンへエンコードし、それらをテキストとともに単一の自己回帰フレームワーク内で処理することで、理解と生成の両方を支援します。この統一設計は、アーキテクチャの単純さとクロスモーダルな協調を提供し、共有パラメータ、統一された学習目的、モダリティ間のシームレスな転移を促進します。しかし、このようなモデルに必要とされる大量の視覚トークンは、計算量とメモリオーバーヘッドを大幅に増加させ、この非効率性は、具現化AIのようなリソース制約のあるシナリオでのデプロイを直接妨げます。本研究では、視覚トークン数を大幅に削減しつつ、画像理解と生成の両方のタスクでの性能を維持する統一トークン圧縮アルゴリズム UniCompress を提案します。私たちの方法は、学習可能なグローバルメタトークンによって導かれるプラグイン式の圧縮と復元の機構を導入します。フレームワークは軽量かつモジュラーで、完全再学習なしに既存モデルへ効率的に統合できます。実験結果は、当手法が画像トークンを最大4倍削減し、推論レイテンシと学習コストに実質的な改善を達成し、性能の劣化は最小限にとどまることを示しており、現実世界のマルチモーダルアプリケーションにおけるトークン効率の高い統一モデリングの有望性を示しています。