UMMの視覚生成を再考する:効率的な画像のみの事前訓練のためのマスク付きモデリング

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 統一マルチモーダルモデル(UMMs)は、視覚生成コンポーネントが非効率的な訓練パラダイムに依存し、高品質なテキスト-画像データが不足しているため、苦戦している。
  • 本論文は、UMMsのための画像のみ訓練(Image-Only Training for UMMs、IOMM)を提案する。視覚生成器をラベルなし画像データのみで事前訓練し、その後、ラベルなし画像と少数のテキスト-画像ペアを用いたファインチューニングを行い、指示と生成品質の整合性を向上させる、2段階フレームワークである。
  • IOMM-B(3.6B)は約1050 GPU時間で最初から訓練され(主に画像のみの事前訓練)、0.89 GenEvalと0.55 WISEを達成し、BAGEL-7BおよびBLIP3-o-4Bを上回る。
  • IOMMのコードはプロジェクトリポジトリで公開されている。

要旨:統一マルチモーダルモデル(UMMs)は、しばしばその \textbf{視覚生成コンポーネント} の事前学習に制約されます。これは通常、非効率的なパラダイムと希少で高品質なテキスト-画像ペアデータに依存しています。本論文では、\textbf{UMM視覚生成} の事前学習レシピを系統的に分析し、これら2つの問題を主要なボトルネックとして特定します。
この問題に対処するため、私たちは \textbf{Image-Only Training for UMMs (IOMM)}、データ効率の高い2段階のトレーニングフレームワークを提案します。
第1段階は、 \textbf{排他的に}、豊富なラベルなしの画像のみデータを使用して視覚生成コンポーネントを事前学習し、これによりこのコストのかかる段階のペアデータへの依存を取り除きます。第2段階は、ラベルなし画像の混合と、厳選された小規模なテキスト-画像ペアのセットを用いてモデルを微調整し、指示の整合性と生成品質の向上をもたらします。
広範な実験により、IOMMはトレーニング効率を向上させるだけでなく、最先端(SOTA)パフォーマンスを達成することが示されています。
例えば、私たちのIOMM-B(3.6B)モデルは、 \sim \textbf{1050} H800 GPU時間程度でゼロから学習されました(大部分は、\textbf{1000} 時間が効率的な \textbf{image-only pre-training stage} に割り当てられました)。GenEvalで \textbf{0.89}、WISEで \textbf{0.55} を達成し、BAGEL-7B(0.82 & 0.55)や BLIP3-o-4B(0.84 & 0.50)といった強力なベースラインを超えています。
コードは \href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM} で利用可能です。