Fluxは5回の連続した反復的編集にわたって顔の幾何学と空間的な整合性を維持している——このレベルでそれを行っている他の手法はありますか?

Reddit r/artificial / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 本投稿は、同一の顔の幾何学、表情、照明の一貫性を保ちながら、5回の連続したプロンプトベースの編集を行えるFluxの能力を示している。
  • 各ステップでは、前の出力を入力として用い、顔の保持に関する明示的な指示を必要とせず、バッグ、サングラス、背景のビーチシーン、服装の変更といった単純なオブジェクト/文脈の差し替えに変更を限定している。
  • 著者は、この結果が少なくとも試したシナリオにおいて、反復的な生成に対する強い空間的整合性を示していると主張している。
  • 議論では、他のモデルが反復的なインペイント/編集ワークフローにおいて同様の忠実さを達成できるかを、参加者が比較してみるよう促している。
  • 全体として、本件は形式的な研究というより、繰り返し編集における文脈保持のモデル挙動を「観察ベースで」示す初期の“ベンチマーク”として機能している。
Flux maintains facial geometry and spatial coherence across 5 sequential iterative edits - is anything else doing this at this level?

1人の女性。5つの異なるプロンプト。完璧な文脈の保持

またFluxをいじっていて、プロンプトだけで写真のアスペクトを変えるのを試してみようと思いました。

これはアートの共有ではなく、Fluxにおける反復プロンプトベースの文脈保持のデモです。各生成は前の出力を入力として使い、5回の連続した編集を通して、顔のジオメトリ、照明の一貫性、空間的な整合性を維持します。

この実験で使ったプロンプトはシンプルでした:

  1. ハンドバッグを追加する
  2. ハンドバッグを削除してサングラスを追加する
  3. 背景をビーチのシーンに変更する
  4. サマービーチバッグを追加する
  5. スーツをドレスに変更する

顔の表情を同じに保つために説明したり、何か条件を付けたりする必要はありませんでした。写真から特定の物を「追加する/取り除く」ための、普通の言葉による依頼をしただけです。

どの写真も、直前の写真から完璧に文脈が引き継がれています。各写真で表情は同一です。

他の人たちも、こうしたレベルの忠実さを反復インペインティングのチェーン全体で維持できるモデルを見つけているのか、それともFluxが本当にここで先行しているのか、気になります。

submitted by /u/Beneficial-Cow-7408
[link] [comments]