UMMの視覚生成を再考する：効率的な画像のみの事前訓練のためのマスク付きモデリング

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

統一マルチモーダルモデル（UMMs）は、視覚生成コンポーネントが非効率的な訓練パラダイムに依存し、高品質なテキスト-画像データが不足しているため、苦戦している。
本論文は、UMMsのための画像のみ訓練（Image-Only Training for UMMs、IOMM）を提案する。視覚生成器をラベルなし画像データのみで事前訓練し、その後、ラベルなし画像と少数のテキスト-画像ペアを用いたファインチューニングを行い、指示と生成品質の整合性を向上させる、2段階フレームワークである。
IOMM-B（3.6B）は約1050 GPU時間で最初から訓練され（主に画像のみの事前訓練）、0.89 GenEvalと0.55 WISEを達成し、BAGEL-7BおよびBLIP3-o-4Bを上回る。
IOMMのコードはプロジェクトリポジトリで公開されている。

要旨：統一マルチモーダルモデル（UMMs）は、しばしばその $\textbf{視覚生成コンポーネント}$ の事前学習に制約されます。これは通常、非効率的なパラダイムと希少で高品質なテキスト-画像ペアデータに依存しています。本論文では、 $\textbf{UMM視覚生成}$ の事前学習レシピを系統的に分析し、これら2つの問題を主要なボトルネックとして特定します。
この問題に対処するため、私たちは $\textbf{Image-Only Training for UMMs (IOMM)}$ 、データ効率の高い2段階のトレーニングフレームワークを提案します。
第1段階は、 $\textbf{排他的に}$ 、豊富なラベルなしの画像のみデータを使用して視覚生成コンポーネントを事前学習し、これによりこのコストのかかる段階のペアデータへの依存を取り除きます。第2段階は、ラベルなし画像の混合と、厳選された小規模なテキスト-画像ペアのセットを用いてモデルを微調整し、指示の整合性と生成品質の向上をもたらします。
広範な実験により、IOMMはトレーニング効率を向上させるだけでなく、最先端（SOTA）パフォーマンスを達成することが示されています。
例えば、私たちのIOMM-B（3.6B）モデルは、 $\sim \textbf{1050}$ H800 GPU時間程度でゼロから学習されました（大部分は、 $\textbf{1000}$ 時間が効率的な $\textbf{image-only pre-training stage}$ に割り当てられました）。GenEvalで $\textbf{0.89}$ 、WISEで $\textbf{0.55}$ を達成し、BAGEL-7B（0.82 & 0.55）や BLIP3-o-4B（0.84 & 0.50）といった強力なベースラインを超えています。
コードは $\href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM}$ で利用可能です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/18Dailyインサイトを見る →

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

UMMの視覚生成を再考する：効率的な画像のみの事前訓練のためのマスク付きモデリング

要点

💡 この記事が使われたインサイト

関連記事

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer