Macでのローカル画像生成：10モデルを比較（SD 1.5→Flux dev→Qwen-Image→Gemini）

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この記事は、Mac（M1 Max, 64GB）上で10種類のローカル画像生成モデルを、フォトリアリズム・文字の再現性・文化的正確さ（日本/アジアのプロンプト含む）などの観点で比較しています。
Qwen-Image Lightning（8ステップの蒸留）はフルモデルより高品質で、テスト対象の作業では約9倍高速（10分 vs 93分）だったと報告されています。
Flux devはローカルモデルの中でフォトリアリズム面が最も優れていましたが、英語中心のバイアスが強く、日本固有の食べ物や場所などの文化的要素が別のものに置き換わる傾向が見られました。
Geminiは漢字の描画と文化的文脈の反映で最も良い結果だったものの、クラウド実行でありローカルではありません。
SDXL Turboは生成が約5秒と非常に速い一方で、画質はやや粗く、著者が特に驚いたのはモデル規模よりも学習データの地理的要因が非英語コンテンツの文化的正確さに大きく影響する点でした。

M1 Max 64GBで、写真のようなリアリズム、テキストの描画、文化的な正確さ（日本/アジアのコンテンツ）について、画像生成モデル10種類をテストしました。

主な発見:

Qwen-Image Lightning（8ステップ蒸留）は、完全版モデルを品質で上回りつつ、9倍高速（10分 vs 93分）
Flux devはローカルモデルとして写真のようなリアリズムに最適ですが、英語中心の強いバイアスがあります（ラーメンにパクチーを入れる、居酒屋を茶屋にしてしまう）
Geminiは漢字の描画と文化的な文脈に強いものの、クラウドです
SDXL Turboは5秒で生成しますが、品質は粗めです

文化的な正確さのギャップには、最も驚かされました。非英語コンテンツにおいては、モデルのサイズよりも学習データの地理がはるかに重要です。