Wan-Image：生成的なビジュアル知能の限界に挑む

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Wan-Imageは、見た目の良い画像生成にとどまらず、厳密な制御性とワークフローの信頼性を重視して、プロ向けの生産性ツールへと進化させることを目指した統合型の生成ビジュアルシステムとして提示されています。
本システムは、大規模言語モデルの認知的能力と拡散トランスフォーマーによる高精細ピクセル合成を組み合わせ、ユーザーの微妙に解像度の高い意図を正確な出力へとシームレスに反映することを狙っています。
大規模なマルチモーダルデータ拡張、きめ細かな注釈エンジン、そして厳選された強化学習データを用いることで、単なる命令追従を超えた性能向上を図ります。
Wan-Imageは、超長文の複雑な文字描画、極めて多様な人物生成、パレットに基づく生成、多人数のアイデンティティ保持、時間的に筋の通った連続生成、精密なマルチモーダル対話編集、ネイティブなアルファチャンネル生成、高効率な4K合成などの高度なユースケースを対象としています。
人による評価ではWan-ImageがSeedream 5.0 LiteおよびGPT Image 1.5の全体性能を上回り、難しいタスクではNano Banana Proと同等に達したとされ、eコマース、エンタメ、教育、個人の生産性といった領域での有望性が示唆されています。

Abstract

私たちは、画像生成モデルを「お手軽なシンセサイザ」からパロダイム・シフト的に「プロ仕様の生産性ツール」へと変えることを明確に設計した、統一型ビジュアル生成システムであるWan-Imageを提案します。現在の拡散モデルは美的生成において優れていますが、絶対的な制御可能性、複雑なタイポグラフィの描画、そして厳密なアイデンティティ保持を要求する、厳格な設計ワークフローでは重大なボトルネックに直面することが少なくありません。これらの課題に対処するため、Wan-Imageは、大規模言語モデルの認知能力と、拡散トランスフォーマによる高精度なピクセル合成を相乗的に統合することで、ネイティブに統一されたマルチモーダル・アーキテクチャを備えています。これにより、きわめてニュアンスのあるユーザー意図が、正確な視覚出力へとシームレスに変換されます。基盤となっているのは、大規模なマルチモーダル・データのスケーリング、体系的なきめ細かなアノテーション・エンジン、および厳選した強化学習データであり、単なる指示追従を超えて、専門家レベルのプロフェッショナルな能力を解放します。これには、超長文の複雑なテキストレンダリング、多様性に富むポートレート生成、パレットに導かれた生成、マルチ被写体にわたるアイデンティティ保持、整合性のある連続的な視覚生成、正確なマルチモーダルのインタラクティブ編集、ネイティブなアルファチャネル生成、そして高効率な4K合成が含まれます。さまざまな人手評価において、Wan-Imageは全体性能でSeedream 5.0 LiteおよびGPT Image 1.5を上回り、難しいタスクではNano Banana Proと同等の水準に到達しています。最終的に、Wan-ImageはEコマース、エンターテインメント、教育、そして個人の生産性にまたがるビジュアルコンテンツ制作を刷新し、プロフェッショナルな視覚合成の境界線を再定義します。