| M1 Max 64GBで、写真のようなリアリズム、テキストの描画、文化的な正確さ(日本/アジアのコンテンツ)について、画像生成モデル10種類をテストしました。 主な発見:
文化的な正確さのギャップには、最も驚かされました。非英語コンテンツにおいては、モデルのサイズよりも学習データの地理がはるかに重要です。 並べて比較(サイドバイサイドの画像付き): https://draft-publish.com/articles/local-image-generation-on-mac-10-models-compared-m-884e655a [リンク] [コメント] |
Macでのローカル画像生成:10モデルを比較(SD 1.5→Flux dev→Qwen-Image→Gemini)
Reddit r/LocalLLaMA / 2026/5/3
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この記事は、Mac(M1 Max, 64GB)上で10種類のローカル画像生成モデルを、フォトリアリズム・文字の再現性・文化的正確さ(日本/アジアのプロンプト含む)などの観点で比較しています。
- Qwen-Image Lightning(8ステップの蒸留)はフルモデルより高品質で、テスト対象の作業では約9倍高速(10分 vs 93分)だったと報告されています。
- Flux devはローカルモデルの中でフォトリアリズム面が最も優れていましたが、英語中心のバイアスが強く、日本固有の食べ物や場所などの文化的要素が別のものに置き換わる傾向が見られました。
- Geminiは漢字の描画と文化的文脈の反映で最も良い結果だったものの、クラウド実行でありローカルではありません。
- SDXL Turboは生成が約5秒と非常に速い一方で、画質はやや粗く、著者が特に驚いたのはモデル規模よりも学習データの地理的要因が非英語コンテンツの文化的正確さに大きく影響する点でした。


![[はじめてのnote]人間はAIにどこまで任せられるのか。](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F272323116%2Frectangle_large_type_2_cdc23772da0af48754759e5922c4bfc5.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)

