Cheers: パッチ詳細を意味表現から分離することにより、統一的マルチモーダル理解と生成を実現する

arXiv cs.AI / 2026/3/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Cheersは、意味表現からパッチレベルの視覚的ディテールを分離する統一的なマルチモーダルモデルを導入し、セマンティクスを安定化させ、ゲート付きディテール残差を介して画像生成を改善する。
三つの構成要素を含む。統一視覚トークナイザー、自己回帰テキストと拡散ベースの画像デコードを共同で扱うLLMベースのトランスフォーマー、そしてゲート付きディテール残差を用いた意味優先デコードのためのカスケード型フローマッチヘッド。
このモデルは4倍のトークン圧縮を実現し、GenEvalおよびMMBenchでTar-1.5Bを上回り、訓練コストは約20%程度しかかからない。
著者らは、再現性とさらなる研究を促進するためにコードとデータを公開する予定です。

要旨: 多模態モデリングにおける最近の最先端トピックは、視覚的理解と生成を単一のモデル内で統合することです。
しかし、これら2つのタスクはデコーディングのレジームと視覚表現が不整合であるため、共通の特徴空間内で共同最適化することは自明ではありません。
本研究では、パッチレベルの詳細を意味表現から切り離すことで統一されたマルチモーダルモデルである Cheers を提案します。これにより、マルチモーダル理解のための意味論を安定化し、ゲーティング付きディテール残差を介して画像生成の忠実度を向上させます。
Cheers には3つの主要コンポーネントが含まれます: (i) 効率的な LLM 条件付けのために画像潜在状態を意味トークンに符号化・圧縮する統一視覚トークナイザ、(ii) テキスト生成の自己回帰デコーディングと画像生成の拡散デコーディングを統一する LLM ベースのトランスフォーマー、(iii) 視覚意味を先にデコードし、次に視覚トークナイザから意味的にゲーティングされたディテール残差を注入して高周波コンテンツを洗練させるカスケード型フロー整合ヘッド。
一般的なベンチマークにおける実験は、Cheers が視覚理解と生成の両方で高度な UMM に匹敵するか、それを上回ることを示しています。
Cheers はまた 4倍のトークン圧縮を実現し、高解像度画像のエンコードと生成をより効率的にします。
特筆すべきは、Cheers が GenEval および MMBench の人気ベンチマークで Tar-1.5B を上回り、トレーニングコストをわずか 20% のみ要する点です。これは効果的で効率的（すなわち 4x のトークン圧縮）な統合型マルチモーダルモデリングを示しています。
今後の研究のために、すべてのコードとデータを公開します。

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

Cheers: パッチ詳細を意味表現から分離することにより、統一的マルチモーダル理解と生成を実現する

要点

関連記事

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター