UniCom: 圧縮された連続意味表現による統一的マルチモーダルモデリング

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は UniCom を紹介します。圧縮された連続意味表現を用いてモダリティ間のギャップを埋め、離散的ビジュアルトークナイザーに依存しないフレームワークです。
チャンネル次元を注意機構ベースの意味圧縮器で削減することが、再構成と生成タスクの両方において、空間的ダウンサンプリングよりも効果的であることを示します。
トランスフュージョンアーキテクチャを提案・実証し、収束性と一貫性の点でクエリベース設計を上回ることを示します。
実験は、統一モデル間での最先端の生成性能を示し、VAE に依存せずに画像編集の高度な制御性を提供し、画像の一貫性を維持します。

Abstract

現在の統一型マルチモーダルモデルは、モダリティ間のギャップを埋めるために通常、離散的な視覚トークナイザーに依存しています。しかし、離散化は微細な意味情報を不可避的に失い、視覚理解タスクでの性能を最適化しません。逆に、連続的な意味表現（例: CLIP, SigLIP）を直接モデリングすることは、高次元の生成モデリングにおいて重大な課題を伴い、収束が遅く訓練の不安定さを招きます。これらのジレンマを解決するため、本研究では圧縮された連続表現を介してマルチモーダル理解と生成を調和させる統一フレームワーク UniCom を提案します。実験により、チャンネル次元を削減することは、再構成と生成の両方において空間的ダウンサンプリングよりもはるかに効果的であることを実証します。これにより、dense な特徴を圧縮された統一表現へ蒸留する、注意機構ベースの意味圧縮器を設計します。さらに、トランスフュージョンアーキテクチャは収束性と一貫性の点でクエリベースの設計を凌駕することを検証します。実験は、UniCom が統一モデル間で最先端の生成性能を達成することを示します。特筆すべきは、豊富な意味的事前知識を保持することにより、VAE に依存せずに画像編集における卓越した制御性を提供し、画像の一貫性を維持します。