| SenseTime(中国のAIラボ)が、NEO-unifyの詳細を公開しました。これは、vision encoder と VAE をどちらも捨てるマルチモーダルモデルです。つまり「生のピクセル」を入力して「生のピクセル」を出力するだけ。 手短にまとめると:
私の目を引いた数字:
悪いニュース:まだリリースされていません。チームメンバーのコメントによると、彼らは「オープンソース化に加えて、詳細な技術レポートの準備も積極的に進めている」とのことです。 エンコーダ依存がない2Bモデルなので、ローカルで動かすのが面白いかもしれません。多くのマルチモーダル構成よりも軽い依存スタックです。 彼らのHFページを要チェック: https://huggingface.co/blog/sensenova/neo-unify Discordサーバー招待コード: https://discord.gg/vh5SE45D8b ほかにもエンコーダレスのマルチモーダルモデルを追っている人はいますか? この流れ(Chameleon、Vila-U、そして今NEO-unify)は勢いが出てきている感じがします。 [link] [comments] |
NEO-unify — 視覚エンコーダなし、VAEなしの2Bマルチモーダルモデル。「たぶん長くないうちに」オープンソース公開
Reddit r/LocalLLaMA / 2026/4/14
💬 オピニオンSignals & Early TrendsModels & Research
要点
- SenseTime(中国のAIラボ)が、ビジョンエンコーダとVAEを使わずに「生のピクセル入出力」を行う2B規模のマルチモーダルモデルNEO-unifyの詳細を公開したと報じられています。
- モデルは単一のTransformerバックボーン(MoT: Mixture of Transformer)で、テキスト理解と画像生成を同一モデルで扱い、画像生成はflow matching、テキストは自己回帰で学習したとされています。
- 画像再構成品質(PSNR 31.56)が少ない事前学習ステップ(90K)で既存のVAEベース手法(例: Fluxの32.65)に近い性能を示したほか、データ効率でも既存モデル(Bagel)を上回るといった数値が紹介されています。
- 画像編集が「理解側ブランチを凍結しても」機能する可能性が示され、さらにエンコーダ依存が少ないためローカル実行のハードルが下がる点も注目ポイントとして挙げられています。
- ただし現時点では未リリースで、オープンソース公開と詳細な技術レポートは「近日(not too long)を期待」とされ、HFページでの更新が案内されています。

