GPT Image 2のSubject-Lock編集:input_fidelity入門ガイド

Dev.to / 2026/4/23

💬 オピニオンTools & Practical UsageModels & Research

要点

  • GPT Image 2のSubject-Lock編集(input_fidelityパラメータ)は、参照画像の被写体を保ったまま背景や照明、テキストなどの変更を行えるため、ECの量産ワークフローに特に有用だと説明されています。
  • input_fidelityは0〜1の範囲で指定し、1.0に近いほど被写体がほぼピクセルレベルで固定(背景や明示した要素のみ変更)、0.0では参照が“ゆるい提案”に変わって生成が自由になる仕組みです。
  • 実務上は「Pixel lock(0.8〜1.0)」「Shape lock(0.5〜0.7)」「Inspiration(0.2〜0.4)」の3ゾーンに分けて用途を選ぶのが有効で、例としてピクセルロックはロゴ/商品/顔などの一致が必要なバリエーション撮影に適しています。
  • 他の主要画像生成モデル(DALL-E 3、Midjourney、Ideogram等)に同等機能がない点を強調し、失敗するケースや運用方法まで踏まえた“実践ガイド”として解説しています。

もともとは nanowow.ai に掲載されたものです — Dev.to の読者向けにこちらに再掲しています。

GPT Image 2 Subject-Lock Editing: input_fidelity の実践ガイド

GPT Image 2 のSubject-Lock 編集input_fidelity パラメーター経由)は、EC販売者、ファッション事業者、そしてバリアント撮影を大量に行う人にとって、最も役に立つ機能の1つです。さらに、DALL-E 3、Midjourney、Ideogram にはこの機能に相当するものがありません。

このガイドは実用的です。input_fidelity が何をするのか、どんな用途にどの値を使うべきか、いつ失敗するのか、そしてそれを中心に実際のワークフローをどう組むかを説明します。

読みながら試してみたい場合は、nanowow.ai/gpt-image-2 にアクセスし、Edit モードに切り替えて、任意の参照画像をアップロードしてください。

Subject-Lock が実際に行うこと

これまでのあらゆる画像モデル(DALL-E 3、Midjourney、Stable Diffusion、Ideogram)は、毎回そのたびにゼロから生成し直します。参照画像をアップロードし、変更点を説明すると、モデルは参照画像に似た新しい画像を生成します。形状、比率、色、細部などに小さなズレが、毎回の生成で必ず発生します。

GPT Image 2 の Edit モードは、動作が異なります。参照画像をアップロードし、input_fidelity に 0 〜 1 の値を設定します:

  • input_fidelity: 1.0 — 被写体がほぼピクセル単位で維持されます。あなたが明示的に説明した部分(背景、ライティング、テキスト、衣類)だけが変わります。
  • input_fidelity: 0.0 — 参照はゆるい“スタイルの参考”に変わり、モデルは自由に再生成します。
  • その中間のどこか — なめらかなスライダーのような調整です。

実務では、重要なのは次の3つのゾーンです:

ゾーン 値の範囲 何が起きるか
ピクセルロック 0.8 – 1.0 商品 / ロゴ / 顔は、世代をまたいでも同一のまま維持されます。商品バリアントの撮影、ラベル差し替え、背景の置き換えに最適です。
シェイプロック 0.5 – 0.7 全体のシルエットと比率は維持されますが、質感や細かなディテールは揺らぐ可能性があります。衣類のリスタイリング、ポーズ維持のリスタイリング、照明のみの変更に最適です。
インスピレーション 0.2 – 0.4 ゆるいスタイルの借用です。粗い構図を保ちながら、ムード、スタイル、媒体などのバリエーションを探るのに最適です。

Subject-Lock が活きる場所

ECのプロダクト撮影

定番の用途です。1つの商品を撮影し、N 個の背景を生成します。

ワークフロー:

  1. 無地の背景で商品写真をアップロード(どんな写真でもOK。スマホ撮影でも可)。
  2. input_fidelity: 0.9 を設定。
  3. プロンプト:「この商品を大理石のカウンタートップに置いてください。朝の窓光、45°の自然な影、ミニマルなエディトリアル構図で。」
  4. 5つのバリアントを生成 — すべての商品は同一のままで、変更されるのはシーンだけ。

Aesop の Resurrection ハンドバーム チューブを、濡れた川のスレート上で、4K のエディトリアル構図にしたもの

Photoshop の合成は不要。マスキングも不要。モデルが文字どおり保持してくれるため、ラベル文字、キャップの形状、セラミック素材の質感まで世代をまたいで正確なままです。

ラベル / パッケージの差し替え

既存の商品写真を用意し、リシュートせずにラベルやパッケージのテキストだけを変更します。

ワークフロー:

  1. 既存の商品写真をアップロード。
  2. input_fidelity: 0.85 を設定。
  3. プロンプト:"ラベルの文字を、正確に 'LIMITED EDITION — 500ml — BREWED 2026-04' としてください。商品の形、ライティング、背景は同一のままに保ってください。"
  4. モデルはラベル上のテキストだけを書き換え、その他はすべて保持します。

これは EC の運用者から最もよくある要望で、以前は文字どおり不可能でした。

ファッション:ポーズ維持で衣装のリスタイリング

モデルの写真をアップロードし、ポーズを保ったまま衣装をリスタイルします。

ワークフロー:

  1. 全身のモデルショットをアップロード。
  2. input_fidelity: 0.6(シェイプロックゾーン — ポーズは維持され、衣装は変更可能)。
  3. プロンプト:"チャコールの Issey Miyake プリーツ ブレザーを、白いシャツの上に着せてください。同じポーズ、同じライティングで。"
  4. ポーズと構図はロックされ、衣装は説明された服から描き直されます。

同じモデルで衣装を20パターン作るファッションカタログの場合、これにより撮影日そのものを 20 のプロンプトに置き換えられます。

キャンペーン全体でのキャラクター一貫性

ヒーロー画像を1つ撮影し、同じキャラクターでキャンペーン全体を生成します。

  • 同じキャラクター、10種類のシーンinput_fidelity: 0.85
  • 同じ衣装、異なるモデルinput_fidelity: 0.5 +新しいモデルについて説明
  • 同じ商品、異なる季節input_fidelity: 0.9 +季節に合う背景を説明

うまくいくプロンプトの型

パターン 1:明示的な“保持”リスト

モデルに「何を変えないか」を伝えます。GPT Image 2 は保持の制約を尊重します。

背景を、ミニマルな白いスタジオのセットアップに変更し、柔らかい側面光にします。
保持:商品形状、ラベル、セラミックの質感、キャップの色。
商品そのものは変更しないでください。

パターン 2:シーンと被写体の分離

シーン:北欧風のキッチンのカウンタートップ。朝の光。コーナーにリネンのナプキンが
見える。浅い被写界深度(DoF)。
被写体(参照から保持):[商品] — ラベル、比率、仕上げを
ピクセル単位で同一のまま保つ。

パターン 3:素材レベルのロック

リブ模様のあるガラスの質感、液体の色、ラベルのタイポグラフィを
参照とまったく同じように保持してください。変更してよいのは木製の背景と
周囲の食材だけです。

Subject-Lock が苦手なところ

input_fidelity がうまく機能しない 3つのシナリオがあります。パイプラインを組む前に、それらを理解しておきましょう。

1. 実在の人の顔

GPT Image 2 は fal.ai 経由でルーティングされ、実在人物の容貌に関する ByteDance/OpenAI のコンテンツポリシーが適用されます。識別可能な顔が写った写真をアップロードすると → content_policy_violation のエラーが頻発します。スタイライズされたキャラクター、イラストベースの参照、または商品中心の撮影では顔を切り取る(クロップする)方法を使ってください。

2. 小さすぎる / 低解像度の参照画像

参照が 512×512 以下の場合、細部はモデルの事前処理で失われます。ラベルやタイポグラフィの正確さが重要なら、少なくとも 1024×1024 の参照をアップロードしてください。

3. 競合するプロンプト

返却形式: {"translated": "翻訳されたHTML"}

input_fidelity: 0.9 を設定してから、大きなスタイル変換(「この商品を水彩画にして」)を依頼すると、結果がどろっとしたものになります。高い fidelity は、シーン/光/テキストの変更を、被写体を保持したまま行うためのものです。被写体そのものを再レンダリングするためではありません。

上級:Subject-Lock と構造化テキストを組み合わせる

最も強力なワークフローは、input_fidelity: 0.9 と GPT Image 2 のテキスト描画機能を組み合わせることです。商品を維持し、その上のテキストだけを変更します。

例 — ラベルの文字入れ替え:

ラベルを「Limited Edition 2026 - #0147 of 500」と完全に読み取れるように変更してください。
ボトルの形、ガラスの色、コルク、背景はまったく同一のままにしてください。
フォント:参照と同じもの。太さとカーニングも一致させてください。

モデルはボトルをピクセル単位で保持し、書き換えるのはラベルのテキストのみで、既存のタイポグラフィとも一致させます。限定版の投入(ドロップ)、シリアル番号付きの商品、パーソナライズされた SKU なら、この手法で 1 枚のヒーロー写真を無限のバリエーションに拡張できます。

クイックスタート チェックリスト

初めて Subject-Lock を生成する前に:

  1. 参照画像 ≥ 1024×1024、PNG または JPEG、30 MB 未満。
  2. 参照画像内に実在の人物の顔はなし(意図的にイラスト/デフォルメの場合を除く)。
  3. 上のゾーン表を基に、保持したい内容で input_fidelity を選択
  4. プロンプトは「シーン/光/テキストの変更」を説明し、被写体変換ではない。
  5. 最後に「保持リスト」 — 変えてはいけないもの。

input_fidelity: 0.9 で最初の生成を試し、モデルが硬すぎるなら下げ、目的からずれて流れていくなら上げて調整してください。

次に進む場所

よくある質問(FAQ)

Q: Subject-Lock は実在の人物の写真を編集できますか?
基本的にはできません — fal.ai の上流コンテンツポリシーが、実在人物の類似性をフラグします。デフォルメされたキャラクター、イラスト、商品/物体の写真は問題なく使えます。

Q: Edit モードのクレジットコストはいくらですか?
同じサイズ/品質でのテキストから画像よりやや高くなります(参照画像の処理により、生成ごとに概ね +1〜2 クレジット)。

Q: 複数の参照画像をアップロードできますか?
はい — GPT Image 2 は参照画像の配列を受け付けます。キャラクター+服装の保持に便利です。あるいは、開始フレームと終了フレーム(動画に近いワークフロー)として用いることもできます。

Q: 透明な背景でも動きますか?
はい。background: "transparent" と Subject-Lock を組み合わせることで、被写体を保持しながら背景を差し替えられます。

Q: これは ChatGPT のインペインティングとどれくらい違いますか?
根本的に異なります。ChatGPT のインペインティングは、マスクした領域を毎回再生成します — 被写体の保持についての保証はありません。Subject-Lock は設計として、ピクセルレベルで保持します。

今すぐ Subject-Lock を試す:nanowow.ai/gpt-image-2(Edit モード)。厳選されたプロンプト 40 個を閲覧:nanowow.ai/gpt-image-2/prompts

この投稿は初めて nanowow.ai に掲載されました。質問があれば、下に返信してください。