FlowInOne:画像入力・画像出力によるフローマッチングで、マルチモーダル生成を統一する

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

FlowInOneは、テキスト、レイアウト、編集指示を視覚的プロンプトへ変換することで、マルチモーダル生成を統一する視覚中心のフレームワークを提案し、画像入力・画像出力のパイプラインを可能にする。

要旨: マルチモーダル生成は長い間、言語が視覚を支配するものの、その中で推論や創造はできないというテキスト主導のパイプラインによって支配されてきました。私たちは、このパラダイムに挑戦し、テキストによる記述、空間レイアウト、編集指示を含むすべてのモダリティを、単一の視覚表現へ統一できるのかを問いかけます。私たちはFlowInOneという枠組みを提示します。これは、マルチモーダル生成を純粋に視覚的なフローとして再定式化し、すべての入力を視覚プロンプトへ変換することで、単一のフローマッチングモデルにより制御される、きれいな「画像イン、画像アウト」のパイプラインを可能にします。この、視覚中心の定式化は、モダリティ間のアライメントのボトルネック、ノイズスケジューリング、タスク固有のアーキテクチャ分岐を自然に取り除き、テキストから画像生成、レイアウト誘導による編集、視覚的指示の追従を、1つの首尾一貫したパラダイムのもとで統一します。これを支えるために、私たちはVisPrompt-5Mを導入します。これは、物理を意識した力学ダイナミクスや軌道予測を含む多様なタスクにまたがる500万件の視覚プロンプトペアからなる大規模データセットです。さらに、指示への忠実性、空間的な精度、視覚的な写実性、内容の一貫性を評価するための、厳密にキュレーションされたベンチマークVP-Benchも提供します。広範な実験により、FlowInOneは、統一されたすべての生成タスクにおいて最先端の性能を達成し、オープンソースのモデルと競争力のある商用システムの両方を上回ることが示されています。これにより、知覚と創造が単一の連続した視覚空間の中で共存する、完全に視覚中心の生成的モデリングの新たな基盤が確立されます。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

FlowInOne:画像入力・画像出力によるフローマッチングで、マルチモーダル生成を統一する

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」