Stable Diffusion は、画像生成 AI を自分の PC(ローカル)で動かせるのが最大の特徴です。Midjourney や DALL·E のような「ブラウザに打ち込んで待つ」クラウド型と違い、モデルのデータを手元にダウンロードして自分の GPU で動かします。だから素材を外に送らずに済み、生成回数に応じた課金もなく、追加学習(LoRA など)で深くカスタマイズできます。一方で、相応の GPU と環境構築の手間が要る「玄人向け」でもあります。本ガイドは、2026年時点の正しいモデル・ライセンス・必要スペックを押さえながら、最初の一歩までを整理します。
FIG.1 クラウド型は処理を他社サーバーに任せる。ローカル型は手元の GPU で完結する
01そもそも何が違うのか
画像生成 AI には大きく二つの形があります。Midjourney や OpenAI の DALL·E(ChatGPT 内蔵の画像生成)は、文章を入力すると提供元のサーバーが計算して画像を返すクラウド型。手軽ですが、入力した内容は外部を通り、利用量に応じた課金やプランの制約があります。
Stable Diffusion はモデルそのもの(数 GB のファイル)を配布しているのが根本的な違いです。それを自分の PC に置いて自分の GPU で動かすので、ネットに何も送らず、何枚作っても追加料金がかかりません。代わりに、動かすための GPU と環境構築は自分で用意します。
| ローカル型(Stable Diffusion) | クラウド型(Midjourney / DALL·E) |
|---|---|
| 素材・プロンプトを外に出さない | 入力は提供元サーバーを通る |
| 生成し放題(電気代と GPU 償却のみ) | サブスクや回数・クレジット課金 |
| LoRA・拡張で深く作り込める | カスタマイズは提供元の機能の範囲 |
| 相応の GPU と環境構築が必要 | ブラウザだけですぐ使える |
022026年に選べるモデルの全体像
「Stable Diffusion」は単一のソフトではなく、世代ごとに複数のモデルがあるシリーズ名です。現行の主力は2024年10月に公開された Stable Diffusion 3.5 で、用途に応じて版(バリアント)を選びます。古い世代も用途次第で現役です。
SD 3.5 Large
約81億パラメータの最上位。品質とプロンプト忠実度が高い反面、必要 VRAM が大きい。
SD 3.5 Medium
約25億パラメータ。「家庭用 GPU でそのまま動く」ことを狙った中量級。最初の選択肢にしやすい。
SD 3.5 Large Turbo
Large を蒸留した高速版。わずか4ステップで生成でき、試行錯誤が速い。