空間的グラウンディングに基づくテキストから画像生成のためのエージェント的フロー制御と並列ロールアウト探索

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、FLUXを基盤とする空間的グラウンディングされたテキストからの画像生成を対象とした、トレーニング不要の閉ループ型フレームワークであるAFS-Searchを紹介する。Vision-Language Modelを意味論的評価者として用い、潜在軌跡を誘導する。
  • 静的エンコーダとオープンループサンプリングの限界に対処するため、リアルタイムのフィードバック、先読みのロールアウト、そしてフロー誘導を実現し、意味的ドリフトと空間的制約違反を低減する。
  • T2I生成は、並列ロールアウトを伴う逐次決定問題として再定義され、VLM(Vision-Language Model)が導く報酬に基づいて最良の軌道を選択する。AFS-Search-ProとAFS-Search-Fastは、それぞれより高い性能とより高速な生成を提供する。
  • 本手法は3つのベンチマークで最先端の結果を達成したと主張し、トレーニング不要の推論時最適化パスを強調する。
  • FLUXベースのトレーニング不要アプローチとして位置づけられ、将来のT2Iツールや開発者のワークフローに影響を及ぼす可能性がある。

要旨: テキストから画像への正確な(T2I)生成は大きな成功を収めていますが、静的テキストエンコーダの関係推論の限界とオープンループサンプリングにおける誤差蓄積に妨げられています。リアルタイムのフィードバックがないと、常微分方程式の軌道上での初期の意味的曖昧さは、空間的制約からの確率的逸脱へと必然的にエスカレートします。このギャップを埋めるべく、AFS-Search(Agentic Flow Steering and Parallel Rollout Search)を導入します。これは FLUX.1-dev に基づくトレーニング不要の閉ループフレームワークです。AFS-Search は、トレーニング不要の閉ループ並列ローアウト探索と流れの操舵機構を組み込み、意味論的クリティックとして Vision-Language Model(VLM)を活用して中間潜在を診断し、正確な空間グラウンディングによって速度場を動的に操縦します。補足的に、T2I 生成を逐次意思決定プロセスとして定式化し、先読みシミュレーションを通じて複数の軌道を探索し、VLM による報酬に基づいて最適な経路を選択します。さらに、高性能の AFS-Search-Pro、より高速な生成のための AFS-Search-Fast を提供します。実験結果は、私たちの AFS-Search-Pro が元の FLUX.1-dev の性能を大幅に向上させ、3 つの異なるベンチマークで最先端の結果を達成することを示しています。一方、AFS-Search-Fast も高速な生成速度を維持しつつ性能を大幅に向上させます。