FlowInOne:画像入力・画像出力によるフローマッチングで、マルチモーダル生成を統一する

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FlowInOneは、テキスト、レイアウト、編集指示を視覚的プロンプトへ変換することで、マルチモーダル生成を統一する視覚中心のフレームワークを提案し、画像入力・画像出力のパイプラインを可能にする。

要旨: マルチモーダル生成は長い間、言語が視覚を支配するものの、その中で推論や創造はできないというテキスト主導のパイプラインによって支配されてきました。私たちは、このパラダイムに挑戦し、テキストによる記述、空間レイアウト、編集指示を含むすべてのモダリティを、単一の視覚表現へ統一できるのかを問いかけます。私たちはFlowInOneという枠組みを提示します。これは、マルチモーダル生成を純粋に視覚的なフローとして再定式化し、すべての入力を視覚プロンプトへ変換することで、単一のフローマッチングモデルにより制御される、きれいな「画像イン、画像アウト」のパイプラインを可能にします。この、視覚中心の定式化は、モダリティ間のアライメントのボトルネック、ノイズスケジューリング、タスク固有のアーキテクチャ分岐を自然に取り除き、テキストから画像生成、レイアウト誘導による編集、視覚的指示の追従を、1つの首尾一貫したパラダイムのもとで統一します。これを支えるために、私たちはVisPrompt-5Mを導入します。これは、物理を意識した力学ダイナミクスや軌道予測を含む多様なタスクにまたがる500万件の視覚プロンプトペアからなる大規模データセットです。さらに、指示への忠実性、空間的な精度、視覚的な写実性、内容の一貫性を評価するための、厳密にキュレーションされたベンチマークVP-Benchも提供します。広範な実験により、FlowInOneは、統一されたすべての生成タスクにおいて最先端の性能を達成し、オープンソースのモデルと競争力のある商用システムの両方を上回ることが示されています。これにより、知覚と創造が単一の連続した視覚空間の中で共存する、完全に視覚中心の生成的モデリングの新たな基盤が確立されます。