要旨: 本稿では、ネイティブに統合された枠組みの中で、マルチモーダルな理解と生成をサポートする統一的な離散拡散大規模言語モデル(dLLM)であるLLaDA2.0-Uniを提案する。そのアーキテクチャは、完全に意味論的な離散トークナイザ、MoEベースのdLLMバックボーン、そして拡散デコーダを組み合わせている。SigLIP-VQによって連続的な視覚入力を離散化することで、バックボーン内にてテキスト入力と視覚入力の両方に対してブロック単位のマスク付き拡散を可能にし、一方デコーダは視覚トークンを高精細な画像へ再構成する。推論効率は、バックボーンでのプレフィックスに配慮した最適化と、デコーダでの少ステップ蒸留によって、並列デコーディングを超えて向上させている。厳密にキュレーションされた大規模データと、それに合わせて設計されたマルチステージの学習パイプラインにより、LLaDA2.0-Uniはマルチモーダル理解において専門特化したVLMに匹敵しつつ、画像生成および編集において強力な性能を実現する。また、生成と推論のインタリーブ(交互)をネイティブにサポートすることにより、次世代の統一型基盤モデルに向けた、有望でスケーラブルなパラダイムが確立される。コードとモデルは https://github.com/inclusionAI/LLaDA2.0-Uni で公開されている。
LLaDA2.0-Uni:拡散型ラージ言語モデルでマルチモーダル理解と生成を統一する
arXiv cs.CV / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- LLaDA2.0-Uniは、マルチモーダルの理解と生成を単一のネイティブな枠組みで行うための新しい統一型離散拡散dLLM(離散拡散ラージ言語モデル)です。
- SigLIP-VQによるセマンティック離散トークナイザと、MoEベースのdLLMバックボーンを用い、離散化したテキスト/視覚トークンに対してブロック単位のマスク付き拡散を実行します。
- 拡散デコーダが視覚トークンを高精細な画像へ復元し、画像生成や編集に加えてマルチモーダル推論も可能にします。
- バックボーンではprefix-aware最適化、デコーダではfew-step蒸留により推論効率を高め、厳選した大規模データと多段階の学習パイプラインで性能をスケールさせています。
- 特化型VLMに匹敵する理解性能と、生成と推論のインタリーブ対応を両立すると主張しており、コード/モデルはGitHubで公開されています。




