Nucleus-Image: 画像生成のためのスパースMoE

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Nucleus-Imageは、テキストから画像へ変換する拡散トランスフォーマーで、専門家（エキスパート）選択型ルーティングを備えたスパース・ミクスチャ・オブ・エキスパーツ（MoE）を用いることで、主要な手法と同等、またはそれを上回る品質を達成しつつ、フォワードパスごとに約2Bパラメータのみを有効化します。
このモデルは、層ごとに64のルーティング対象エキスパートにわたって合計17Bのパラメータへとスケールし、さらに推論効率を高めるために、トランスフォーマーのバックボーンからテキストトークンを除外し、テキストのKVをタイムステップ間で再利用します。
タイムステップ変調によるルーティングの安定化のために、タイムステップに応じたエキスパート割り当てと、タイムステップ条件付きのエキスパート計算を分離する、デカップル（分離）型ルーティング手法を導入しています。
学習には、高品質なテキスト-画像ペア1.5B件（ユニーク画像700M枚）を使用し、多段階のフィルタリング、重複排除、審美性ティアリング、そして最大1024までのプログレッシブ解像度カリキュラムに加え、プログレッシブなエキスパート容量のスパース化を行っています。
著者らは、強化学習や嗜好最適化（Preference optimization）といったポストトレーニング手法なしで、強力なベンチマーク性能を報告しており、オープンソースの学習レシピも公開しています。これは、この品質水準での最初の試みとなるオープンなMoE拡散モデルだと位置づけています。

Abstract

本稿では、Nucleus-Imageというテキストから画像を生成するモデルを提案します。これは、フォワードパスあたり約2Bパラメータのみを有効化しながら、GenEval、DPG-Bench、OneIG-Benchにおいて主要モデルに匹敵、または上回る性能を達成することで、品質対効率の新たなパレートフロンティアを確立します。Nucleus-Imageは、スパースな混合専門家（MoE）拡散トランスフォーマーアーキテクチャと、Expert-Choice Routingを採用し、層ごとに64のルーティング済みエキスパートを通じて全体のモデル容量を17Bパラメータまでスケールします。私たちは、推論効率のために最適化された簡素化アーキテクチャを採用し、トランスフォーマーのバックボーンからテキストトークンを完全に除外し、さらにタイムステップをまたいだテキストKV共有を可能にするジョイント・アテンションを用います。タイムステップ変調を使用する際のルーティング安定性を改善するために、タイムステップに応じたエキスパート割り当てと、タイムステップ条件づけされたエキスパート計算を切り離すデカップルしたルーティング設計を導入します。700Mの一意な画像にわたる1.5Bの高品質な学習ペアからなる大規模な学習コーパスを構築し、マルチステージのフィルタリング、重複排除、美的ティアリング、キャプションのキュレーションを行います。学習は、進行的解像度カリキュラム（256から512から1024）に従い、各ステージでマルチアスペクト比のバケッティングを行います。さらに、エキスパート容量係数の進行的なスパース化を組み合わせます。Muonオプティマイザを採用し、タイムステップ変調を行う拡散モデルに合わせて調整した、パラメータ分割のレシピを共有します。Nucleus-Imageは、スパースMoEスケーリングが高品質画像生成への非常に有効なアプローチであり、推論コストの一部で、はるかに大きいアクティブパラメータ予算を持つモデルと同等の性能に到達できることを示します。これらの結果は、事後学習（ポストトレーニング）による最適化を一切行わずに達成されています。強化学習は行っておらず、直接の嗜好最適化も行っていませんし、人間の嗜好チューニングも行っていません。学習レシピを公開することで、Nucleus-Imageはこの品質における初の完全オープンソースのMoE拡散モデルとなります。