UniCom: 圧縮された連続意味表現による統一的マルチモーダルモデリング
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は UniCom を紹介します。圧縮された連続意味表現を用いてモダリティ間のギャップを埋め、離散的ビジュアルトークナイザーに依存しないフレームワークです。
- チャンネル次元を注意機構ベースの意味圧縮器で削減することが、再構成と生成タスクの両方において、空間的ダウンサンプリングよりも効果的であることを示します。
- トランスフュージョンアーキテクチャを提案・実証し、収束性と一貫性の点でクエリベース設計を上回ることを示します。
- 実験は、統一モデル間での最先端の生成性能を示し、VAE に依存せずに画像編集の高度な制御性を提供し、画像の一貫性を維持します。




