画像生成AIは「呪文を覚えるゲーム」ではありません。狙った絵を安定して出すコツは、伝える順番と要素の具体度にあります。本ガイドは、Midjourney・Stable Diffusion・GPT Image・FLUX・Nano Banana・Ideogram など主要モデルに共通して効く書き方を、初めての人でも今日から使える形で整理します。ツールごとの細かな違いは後半でまとめます。
FIG.1 「何を・どう・どこから・どんな光で・細部は」の順に積むと、どのモデルでも狙いが伝わりやすい
01共通の土台「5要素フレーム」
主要モデルに共通して効くのは、要素を 主題 → スタイル → 構図 → 照明・色 → 詳細 の順で書くことです。順番には意味があります。先に「何を描くか(主題)」を固め、次に「どんな見た目か(スタイル)」、そこから画面の取り方(構図)、空気感を決める光、最後に細部、という流れがモデルの理解と一致しやすいからです。
たとえば「夕暮れの東京を浮世絵風に描きたい」なら、次のように分解します。
主題:夕暮れの東京の街並み スタイル:浮世絵風の版画タッチ 構図:斜め俯瞰のワイドショット 照明・色:暖色のシネマティックライト、夕焼けのグラデーション 詳細:北斎の波のような雲、行き交う人々、提灯の灯り
英語で書くとモデルが学習している語彙に当たりやすい場面もありますが、近年のモデル(GPT Image、Nano Banana など)は日本語の指示理解も実用的です。まずは母語で要素を出し切り、必要なら専門用語だけ英語にする、という進め方で十分です。
02主題は「一つに絞り、具体名詞で」
最初のつまずきは「あれもこれも」と詰め込むことです。主役が複数あると構図が破綻しやすいので、まず主役を一つに決めてから脇役を足します。
- 具体名詞を選ぶ:「人」より「30代女性、ネイビーのビジネススーツ」。情報が増えるほど絵がブレません。
- 状態・動作を加える:「コーヒーを淹れている」「窓の外を見て微笑む」。静止した名詞だけより生きた絵になります。
- 関係を書く:複数人を出すなら「手前に子ども、奥に祖父」のように位置関係を明示すると混ざりにくくなります。
03スタイル参照:言葉と画像の2系統
「どんな見た目か」を伝える方法は、大きく言葉で指定するか参照画像を渡すかの2系統です。後者は近年とくに強力になりました。
言葉で指定
「水彩画」「3Dレンダリング」「フィルム写真」など大分類+質感の語。手軽で、まず試すのに最適。
スタイル参照(画像)
Midjourney の --sref に画像URLやスタイルコードを渡し、その作風を踏襲。複数モデルが類似機能を持つ。
構図・編集の参照
SDの ControlNet で輪郭や姿勢を流用、FLUX や Nano Banana では参照画像を見せて「ここだけ変えて」と対話編集。



