FlowScene: マルチモーダルグラフ整流フローによるスタイル一貫性を備えた室内シーン生成

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

FlowSceneは、マルチモーダルグラフに条件付けられた3つの分岐からなる生成モデルを提案し、シーンレイアウト、オブジェクトの形状、および質感を共同で生成します。
生成過程でオブジェクト情報を交換する整流フロー機構を導入し、オブジェクトグラフ全体にわたる協調的推論を可能にします。
このアプローチは、構造と外観全体にわたるシーンレベルのスタイル一貫性を保証し、オブジェクトの形状、質感、関係性を細かな粒度で制御できるようにします。
実験結果は、FlowSceneが言語条件付けベースラインおよびグラフ条件付けベースラインを、リアリズム、スタイルの一貫性、および人間の嗜好への一致の点で上回ることを示しています。
従来手法の限界に対処することで、FlowSceneは産業用途に適した高忠実度・質感豊かな室内シーンの提供を目指します。

要約：シーン生成には広範な産業応用があり、高い現実性と形状および外観の正確な制御の両方を要求します。言語駆動の検索手法は、大規模なオブジェクトデータベースからもっともらしいシーンを構成しますが、オブジェクトレベルの制御を見落とし、しばしばシーンレベルのスタイル整合性を確保できません。グラフベースの定式化は、オブジェクトに対するより高い制御性を提供し、関係を明示的にモデリングすることで全体的な一貫性を導く一方で、既存の手法は高忠実度のテクスチャ付き結果を生成するのに苦戦し、その実用性を制限しています。FlowSceneを提案します。これは、マルチモーダルなグラフを条件にして協調的にシーンのレイアウト、オブジェクトの形状、オブジェクトのテクスチャを生成する3枝分岐のシーン生成モデルです。その核となるのは、生成過程でオブジェクト情報を交換する緊密に結合した整流フローモデルがあり、グラフ全体にわたる協調的推論を可能にします。これにより、構造と外観の両方にわたりシーンレベルのスタイル整合性を強制しつつ、オブジェクトの形状・テクスチャ・関係に対する細かな制御を実現します。広範な実験により、FlowSceneは、生成のリアリズム、スタイルの一貫性、および人間の嗜好との整合性の点で、言語条件付けベースラインとグラフ条件付けベースラインの双方を上回ることが示されています。

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

Dev.to

【D】リアルタイム学生の注意検出：ResNet 対顔面ランドマーク—リソース制約下でのデプロイにはどちらが適しているか？

Reddit r/MachineLearning

GLM-5.1が稼働開始—Claude Opus 4.5と同等のコーディング能力

Reddit r/LocalLLaMA

テキストから画像へのパート対応パーソン再識別のためのセマンティック自己アライメント型ネットワーク

Dev.to

最初の原理から理解するFlashAttention

Reddit r/LocalLLaMA

FlowScene: マルチモーダルグラフ整流フローによるスタイル一貫性を備えた室内シーン生成

要点

関連記事

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

【D】リアルタイム学生の注意検出：ResNet 対顔面ランドマーク—リソース制約下でのデプロイにはどちらが適しているか？

GLM-5.1が稼働開始—Claude Opus 4.5と同等のコーディング能力

テキストから画像へのパート対応パーソン再識別のためのセマンティック自己アライメント型ネットワーク

最初の原理から理解するFlashAttention

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

【D】リアルタイム学生の注意検出：ResNet 対 顔面ランドマーク—リソース制約下でのデプロイにはどちらが適しているか？

GLM-5.1が稼働開始—Claude Opus 4.5と同等のコーディング能力

テキストから画像へのパート対応パーソン再識別のためのセマンティック自己アライメント型ネットワーク

最初の原理から理解するFlashAttention

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【D】リアルタイム学生の注意検出：ResNet 対顔面ランドマーク—リソース制約下でのデプロイにはどちらが適しているか？