Nucleus-Image: 画像生成のためのスパースMoE
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsModels & Research
要点
- Nucleus-Imageは、テキストから画像へ変換する拡散トランスフォーマーで、専門家(エキスパート)選択型ルーティングを備えたスパース・ミクスチャ・オブ・エキスパーツ(MoE)を用いることで、主要な手法と同等、またはそれを上回る品質を達成しつつ、フォワードパスごとに約2Bパラメータのみを有効化します。
- このモデルは、層ごとに64のルーティング対象エキスパートにわたって合計17Bのパラメータへとスケールし、さらに推論効率を高めるために、トランスフォーマーのバックボーンからテキストトークンを除外し、テキストのKVをタイムステップ間で再利用します。
- タイムステップ変調によるルーティングの安定化のために、タイムステップに応じたエキスパート割り当てと、タイムステップ条件付きのエキスパート計算を分離する、デカップル(分離)型ルーティング手法を導入しています。
- 学習には、高品質なテキスト-画像ペア1.5B件(ユニーク画像700M枚)を使用し、多段階のフィルタリング、重複排除、審美性ティアリング、そして最大1024までのプログレッシブ解像度カリキュラムに加え、プログレッシブなエキスパート容量のスパース化を行っています。
- 著者らは、強化学習や嗜好最適化(Preference optimization)といったポストトレーニング手法なしで、強力なベンチマーク性能を報告しており、オープンソースの学習レシピも公開しています。これは、この品質水準での最初の試みとなるオープンなMoE拡散モデルだと位置づけています。




