要旨: 多模態モデリングにおける最近の最先端トピックは、視覚的理解と生成を単一のモデル内で統合することです。
しかし、これら2つのタスクはデコーディングのレジームと視覚表現が不整合であるため、共通の特徴空間内で共同最適化することは自明ではありません。
本研究では、パッチレベルの詳細を意味表現から切り離すことで統一されたマルチモーダルモデルである Cheers を提案します。これにより、マルチモーダル理解のための意味論を安定化し、ゲーティング付きディテール残差を介して画像生成の忠実度を向上させます。
Cheers には3つの主要コンポーネントが含まれます: (i) 効率的な LLM 条件付けのために画像潜在状態を意味トークンに符号化・圧縮する統一視覚トークナイザ、(ii) テキスト生成の自己回帰デコーディングと画像生成の拡散デコーディングを統一する LLM ベースのトランスフォーマー、(iii) 視覚意味を先にデコードし、次に視覚トークナイザから意味的にゲーティングされたディテール残差を注入して高周波コンテンツを洗練させるカスケード型フロー整合ヘッド。
一般的なベンチマークにおける実験は、Cheers が視覚理解と生成の両方で高度な UMM に匹敵するか、それを上回ることを示しています。
Cheers はまた 4倍のトークン圧縮を実現し、高解像度画像のエンコードと生成をより効率的にします。
特筆すべきは、Cheers が GenEval および MMBench の人気ベンチマークで Tar-1.5B を上回り、トレーニングコストをわずか 20% のみ要する点です。これは効果的で効率的(すなわち 4x のトークン圧縮)な統合型マルチモーダルモデリングを示しています。
今後の研究のために、すべてのコードとデータを公開します。
Cheers: パッチ詳細を意味表現から分離することにより、統一的マルチモーダル理解と生成を実現する
arXiv cs.AI / 2026/3/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Cheersは、意味表現からパッチレベルの視覚的ディテールを分離する統一的なマルチモーダルモデルを導入し、セマンティクスを安定化させ、ゲート付きディテール残差を介して画像生成を改善する。
- 三つの構成要素を含む。統一視覚トークナイザー、自己回帰テキストと拡散ベースの画像デコードを共同で扱うLLMベースのトランスフォーマー、そしてゲート付きディテール残差を用いた意味優先デコードのためのカスケード型フローマッチヘッド。
- このモデルは4倍のトークン圧縮を実現し、GenEvalおよびMMBenchでTar-1.5Bを上回り、訓練コストは約20%程度しかかからない。
- 著者らは、再現性とさらなる研究を促進するためにコードとデータを公開する予定です。




