ViTに語らせる：言語-画像生成型事前学習

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、MLLM（マルチモーダル大型言語モデル）向けのビジョントランスフォーマ（ViT）用に設計されたミニマルな事前学習フレームワーク「GenLIP（Generative Language-Image Pre-training）」を提案する。
GenLIPは、視覚エンコーダをLLMの自己回帰的な性質に合わせるため、追加のテキストデコーダやコントラスト学習用のバッチ構築を行わずに、標準的な言語モデリング目的で視覚トークンから言語トークンを直接予測する学習を行う。
著者らは、(1)視覚・テキストを単一のトランスフォーマで共同モデリングすることによるシンプルさ、(2)データとモデル規模の双方に対するスケーラビリティ、(3)多様なマルチモーダル指標での競争力ある、あるいは優れた性能、の3つの利点を挙げている。
Recap-DataComp-1Bの約8Bサンプルで学習したGenLIPは、前学習データを大幅に少なくしながらも強力なベースラインに匹敵または上回り、さらにネイティブなアスペクト比での多解像度画像による追加事前学習後は、OCRやチャート理解のような細部重視タスクで改善が示される。

要旨: 本論文では、マルチモーダル大規模言語モデル（MLLMs）向けに設計された、Vision Transformer（ViTs）のためのミニマリストな生成事前学習フレームワークである\textbf{Gen}erative \textbf{L}anguage-\textbf{I}mage \textbf{P}re-training（GenLIP）を提示する。視覚エンコーダをLLMの自己回帰的な性質により適切に整合させるために、GenLIPは、標準的な言語モデリング目的を用いて、追加のテキストデコーダや対照的なバッチ構築なしで、視覚トークンから言語トークンを直接予測するようにViTを学習する。この設計には、3つの主要な利点がある: (1) \textbf{単純さ}: 1つのトランスフォーマが視覚トークンとテキストトークンを共同でモデル化する; (2) \textbf{拡張性}: データ量とモデル規模の両方に対して効果的にスケールする; (3) \textbf{性能}: 多様なマルチモーダルのベンチマークにおいて、競争力のある、あるいはそれを上回る結果を達成する。Recap-DataComp-1Bの8Bサンプルで学習したGenLIPは、実質的により少ない事前学習データを用いているにもかかわらず、強力なベースラインに対して同等または上回る。ネイティブのアスペクト比で多解像度画像に対して継続事前学習を行った後、GenLIPは、OCRや図表理解など、細部に敏感なタスクでもさらに改善し、MLLMにおける視覚エンコーダの強力な基盤となる。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

ViTに語らせる：言語-画像生成型事前学習

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」