NEO-unify — 視覚エンコーダなし、VAEなしの2Bマルチモーダルモデル。「たぶん長くないうちに」オープンソース公開

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

SenseTime（中国のAIラボ）が、ビジョンエンコーダとVAEを使わずに「生のピクセル入出力」を行う2B規模のマルチモーダルモデルNEO-unifyの詳細を公開したと報じられています。
モデルは単一のTransformerバックボーン（MoT: Mixture of Transformer）で、テキスト理解と画像生成を同一モデルで扱い、画像生成はflow matching、テキストは自己回帰で学習したとされています。
画像再構成品質（PSNR 31.56）が少ない事前学習ステップ（90K）で既存のVAEベース手法（例: Fluxの32.65）に近い性能を示したほか、データ効率でも既存モデル（Bagel）を上回るといった数値が紹介されています。
画像編集が「理解側ブランチを凍結しても」機能する可能性が示され、さらにエンコーダ依存が少ないためローカル実行のハードルが下がる点も注目ポイントとして挙げられています。
ただし現時点では未リリースで、オープンソース公開と詳細な技術レポートは「近日（not too long）を期待」とされ、HFページでの更新が案内されています。

SenseTime（中国のAIラボ）が、NEO-unifyの詳細を公開しました。これは、vision encoder と VAE をどちらも捨てるマルチモーダルモデルです。つまり「生のピクセル」を入力して「生のピクセル」を出力するだけ。

手短にまとめると：

CLIPなし、SigLIPなし、VAEなし — ピクセル入力をネイティブに処理
2Bパラメータのモデル。単一の統一Transformerバックボーン（彼らは MoT — Mixture of Transformer と呼んでいます）が、理解と画像生成の両方を扱う
画像生成はフローマッチングで学習、テキストは自己回帰で — すべて1つのモデルで

私の目を引いた数字：

悪いニュース：まだリリースされていません。チームメンバーのコメントによると、彼らは「オープンソース化に加えて、詳細な技術レポートの準備も積極的に進めている」とのことです。

エンコーダ依存がない2Bモデルなので、ローカルで動かすのが面白いかもしれません。多くのマルチモーダル構成よりも軽い依存スタックです。

彼らのHFページを要チェック： https://huggingface.co/blog/sensenova/neo-unify

Discordサーバー招待コード： https://discord.gg/vh5SE45D8b

ほかにもエンコーダレスのマルチモーダルモデルを追っている人はいますか？この流れ（Chameleon、Vila-U、そして今NEO-unify）は勢いが出てきている感じがします。

AI-SCHOLAR

日経XTECH

日経XTECH

Innovatopia

GIGAZINE