ローカルAIモデルでの画像から画像(image-to-image)— 何にどのモデルを使うべきか、そしてデノイズ強度は実際にどう機能するのか

Dev.to / 2026/4/10

💬 オピニオンTools & Practical UsageModels & Research

要点

  • この記事では、画像から画像(I2I)がデノイズ強度スライダー(0.0〜1.0)を使って、テキストプロンプトを適用しながら参照画像をどれだけ強くローカルモデルに変化させるかを制御することを説明します。
  • 実用的なデノイズ範囲として、軽い調整は0.1〜0.3、構図を維持しつつディテールを変えるのに最も有用なバランスは0.4〜0.6、大きく再構想するのは0.7〜0.9、そして1.0は事実上テキストから画像(ソースの影響なし)と同等であると述べています。
  • Locally Uncensoredがv2.3.0でI2Iを追加したこと、またアプリがノードの編集を必要とせずに、基盤となるComfyUIワークフローを自動的に構築することを記載しています。
  • モデル選択のガイダンスとして、フォトリアルな変換やポートレート/商品表現の改善に向くSDXLモデル(例:Juggernaut XL、RealVisXL、DreamShaper XL)を挙げ、必要なVRAMはおおよそ約6〜8GBである点を強調しています。
  • FLUXモデル(例:FLUX.1 Schnell/Dev、FLUX 2 Klein)について、画像内のテキスト描画や複雑なシーン変更に特に強いことを紹介し、I2Iの目的によって適切な強度が変わることを示唆しています。

ほとんどのローカルAI画像ツールは、テキストから画像を生成する機能(text-to-image)を用意してそれで終わりです。プロンプトを入力して画像を得て、望んだものと違っていれば別のプロンプトで作り直す——それで探索することはできます。しかし、特定の結果を思い描いているときのワークフローとしては最悪です。

Image-to-Image(I2I)はそれを変えます。参照画像(写真、スケッチ、以前の生成結果など)から始めて、モデルに「何を変えるか」を指示します。構図は維持し、スタイルを調整する。ポーズは保ち、服装を変える。レイアウトはそのままにして、フォトリアルにする。参照画像が生成の土台になるので、サイコロを振るような作り直しではなく「磨き込み」になります。

I2Iはv2.3.0でLocally Uncensoredに追加されており、アプリが対応しているすべての画像モデルで動作します。仕組みと、用途ごとにどのモデルを使うべきかを説明します。

Image-to-Image(I2I)の仕組み

中心となるのはデノイズ強度です。これは0.0〜1.0の値で、モデルが元画像をどれだけ変えるかを制御します。

  • 0.1〜0.3: 控えめな調整。カラーレンディング、軽微なスタイルの変更、質感の変更。元の画像ははっきりと見て取れます。
  • 0.4〜0.6: 中程度の変換。構図や主要な形は維持されますが、細部、色、スタイルは大きく変わり得ます。ほとんどの用途にとってのちょうどよい範囲です。
  • 0.7〜0.9: 大胆な再構築。モデルはあなたの画像をゆるいガイドとして使いますが、プロンプトに基づいて大部分の内容を新たに生成します。
  • 1.0: 実質的に同じ次元でのtext-to-imageです。元画像は一切影響しません。

Locally Uncensoredでは、ソース画像をドラッグ&ドロップ(または貼り付け)し、デノイズのスライダーを設定し、プロンプトを書いて、Generateを押すだけです。アプリがComfyUIのワークフロー構築を自動で処理するため、ノード編集は不要です。

どのモデルを使うか

SDXLモデル(Juggernaut XL、RealVisXL、DreamShaper XL)

おすすめ用途: フォトリアルな変換、ポートレートの仕上げ、プロダクト写真。

VRAM 6GBのSDXLモデルが最も手に入りやすい選択肢です。Juggernaut XL V9は特にフォトリアルなI2Iに強く、顔の構造をうまく保持し、肌の質感も自然に扱います。DreamShaper XLは、求めるものがアーティスティックな場合により寄ります。

よくあるワークフロー: スマホで撮った写真をアップロードし、デノイズを0.35〜0.50に設定して、希望するスタイルでプロンプトを書きます。「professional headshot, studio lighting, shallow depth of field(プロのヘッドショット、スタジオ照明、浅い被写界深度)」といった指示で、カジュアルな自撮りが使える見た目に変わります。

VRAM: 6〜8 GB

FLUXモデル(FLUX.1 Schnell、FLUX.1 Dev、FLUX 2 Klein)

おすすめ用途: 画像内の文字の表現、複雑なシーンの変更、建築のビジュアライゼーション。

FLUXは、ローカルの他のどのモデルよりも「文字が入った画像」をうまく扱います。I2Iのタスクで、看板の文字を変えたい、UIモックを修正したい、読み取れる文字が重要な画像を生成したい——といった場合は、FLUXが答えです。

FLUX 2 Kleinは最新で最速です。FLUX.1 Devは品質が高い一方で時間がかかります。FLUX.1 Schnellはスピード重視の選択肢です。

よくあるワークフロー: UIデザインのスクリーンショットを撮ってアップロードし、デノイズを0.40〜0.55に設定して、変更内容をプロンプトにします。「dark mode version, rounded corners, blue accent color(ダークモード版、角丸、青のアクセントカラー)」——そう指示すれば、文字が読みやすい状態を保てます。

VRAM: 8〜12 GB

Z-Image(Turbo と Base)

おすすめ用途: フィルタなしのコンテンツ、素早い反復、セーフティフィルターなしでの創造的な探索。

Z-Imageにはコンテンツフィルタリングがありません。プロンプトの拒否も、安全性分類器もありません。あなたが説明した内容は何でも生成します。このTurbo版は8〜15秒でそれを行います。

I2Iに関して言えば、Z-Image Turboは高速な反復に非常に向いています。速いので、他のモデルが2パターン作る間に10パターン試せます。素早いスタイル転送ならデノイズを低め(0.2〜0.35)にし、大胆な変換なら高め(0.6+)にしてください。

Z-Image Baseはより高品質な出力を出しますが、時間がかかります。探索にはTurbo、仕上げのレンダリングにはBaseを使いましょう。

VRAM: 10〜16 GB

実践的なI2Iワークフロー

スタイル転送

写真をアップロードし、デノイズを0.45〜0.55に設定して、美術スタイルをプロンプトで指定します。「oil painting, impressionist style, warm palette(油彩、印象派風、暖色パレット)」といった指示で、構図は維持されつつ、素材(媒体)が変わります。

スケッチからレンダリング

紙、または任意の描画アプリでラフスケッチを描きます。アップロードしてください。デノイズを0.65〜0.80に設定します。モデルはあなたのスケッチを構造のガイドとして使い、プロンプトに基づいて現実的またはスタイライズされた細部を描き足します。

反復による仕上げ

テキストから画像の結果を「80%合っている」状態まで生成します。それをI2Iの入力として使い、デノイズを0.20〜0.35に設定し、修正したい点に焦点を当てたプロンプトを書きます。合うまで繰り返します。毎回ゼロから生成し直すより、圧倒的に効率が良くなります。

背景の差し替え

プロダクト写真、またはポートレートをアップロードします。デノイズを0.40〜0.50に設定します。新しい背景の説明をプロンプトで指定します。被写体は主にそのまま維持され、環境が変わります。前景/背景の分離をうまく扱えるSDXLモデルで特に効果的です。

セットアップ

Locally Uncensoredをインストール済みなら、I2Iはすでに入っています——追加のセットアップは不要です。

  1. タブCreateを開く
  2. 画像のアップロード領域をクリック(またはドラッグ&ドロップ)
  3. Denoiseスライダーを設定する
  4. 希望する出力内容を記述したプロンプトを書く
  5. Generateを押す

まだComfyUIがインストールされていない場合でも、アプリがワンクリックでそれを処理します。モデルバンドルはワンクリックでダウンロードできます——アプリはVRAMに基づいて、あなたのGPUが実際に実行できるものを表示します。

出典

Locally Uncensoredはオープンソース(AGPL-3.0)です:

I2Iはv2.3.0で、Image-to-Video(6 GB VRAMでのFramePack)、ComfyUIのプラグ&プレイ、ワンクリックのモデルバンドルとともに提供が開始されました。