MMCORE：表現が整合した潜在埋め込みによるマルチモーダル接続

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MMCOREは、学習可能なクエリトークンを用いて事前学習済みのVision-Language Model（VLM）から意味的な視覚埋め込みを予測し、マルチモーダルな画像生成と編集を行う統一フレームワークです。
予測した埋め込みは拡散モデルの条件付け信号として使われ、VLMの推論能力を視覚合成へと引き継ぎます。
自己回帰モデルと拡散モデルの深い融合やゼロからの学習を避けることで、計算コストを大幅に削減しつつ、高品質な生成を維持します。
MMCOREはテキストからの画像生成に加え、画像生成をインタリーブ（交互）して行うこともでき、空間的推論や視覚的グラウンディングのような複雑な課題で堅牢です。
評価では、テキストからの画像生成および単一・複数画像の編集ベンチマークにおいて、複数の最先端ベースラインを一貫して上回ると報告されています。

要約: マルチモーダル画像生成および編集のための統一フレームワークであるMMCOREを提案します。MMCOREは、学習可能なクエリトークンを介して、事前学習済みの視覚-言語モデル（VLM）を用いて意味的な視覚埋め込みを予測します。これらはその後、拡散モデルの条件付け信号として機能します。この簡素化された設計により、VLMの豊富な理解力と推論能力を視覚生成プロセスへ効果的に移植できます。自己回帰モデルと拡散モデルの間で深い融合を行う必要や、ゼロからの学習の必要性を回避することで、MMCOREは高精細な合成を維持しつつ計算オーバーヘッドを大幅に削減します。
MMCOREは、テキストから画像への合成と、画像生成を途中に挿入する形での統合をシームレスに行い、空間推論や視覚的グラウンディングといった複雑な状況において、堅牢なマルチモーダル理解を示します。包括的な評価の結果、MMCOREはテキストから画像および単一/複数画像編集の幅広いベンチマークにおいて、常に最新のベースラインを上回ることが確認されています。