要旨: 本論文では、マルチモーダル大規模言語モデル(MLLMs)向けに設計された、Vision Transformer(ViTs)のためのミニマリストな生成事前学習フレームワークである\textbf{Gen}erative \textbf{L}anguage-\textbf{I}mage \textbf{P}re-training(GenLIP)を提示する。視覚エンコーダをLLMの自己回帰的な性質により適切に整合させるために、GenLIPは、標準的な言語モデリング目的を用いて、追加のテキストデコーダや対照的なバッチ構築なしで、視覚トークンから言語トークンを直接予測するようにViTを学習する。この設計には、3つの主要な利点がある: (1) \textbf{単純さ}: 1つのトランスフォーマが視覚トークンとテキストトークンを共同でモデル化する; (2) \textbf{拡張性}: データ量とモデル規模の両方に対して効果的にスケールする; (3) \textbf{性能}: 多様なマルチモーダルのベンチマークにおいて、競争力のある、あるいはそれを上回る結果を達成する。Recap-DataComp-1Bの8Bサンプルで学習したGenLIPは、実質的により少ない事前学習データを用いているにもかかわらず、強力なベースラインに対して同等または上回る。ネイティブのアスペクト比で多解像度画像に対して継続事前学習を行った後、GenLIPは、OCRや図表理解など、細部に敏感なタスクでもさらに改善し、MLLMにおける視覚エンコーダの強力な基盤となる。
ViTに語らせる:言語-画像生成型事前学習
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、MLLM(マルチモーダル大型言語モデル)向けのビジョントランスフォーマ(ViT)用に設計されたミニマルな事前学習フレームワーク「GenLIP(Generative Language-Image Pre-training)」を提案する。
- GenLIPは、視覚エンコーダをLLMの自己回帰的な性質に合わせるため、追加のテキストデコーダやコントラスト学習用のバッチ構築を行わずに、標準的な言語モデリング目的で視覚トークンから言語トークンを直接予測する学習を行う。
- 著者らは、(1)視覚・テキストを単一のトランスフォーマで共同モデリングすることによるシンプルさ、(2)データとモデル規模の双方に対するスケーラビリティ、(3)多様なマルチモーダル指標での競争力ある、あるいは優れた性能、の3つの利点を挙げている。
- Recap-DataComp-1Bの約8Bサンプルで学習したGenLIPは、前学習データを大幅に少なくしながらも強力なベースラインに匹敵または上回り、さらにネイティブなアスペクト比での多解像度画像による追加事前学習後は、OCRやチャート理解のような細部重視タスクで改善が示される。



